나는 NLP에서 문장 분할을 시도하는 초보자입니다. NLTK에서 토큰 라이저를 사용할 수 있다는 것을 알고 있습니다. 그러나 Decision Tree와 같은 Machine Learning 알고리즘을 사용하여 내 자신의 문장 분할기를 만들고 싶었습니다. 그러나 나는 그것을위한 훈련 자료를 수집 할 수 없다. 데이터는 어떻게되어야합니다. 먼저 감독 학습을 사용해 보았으므로 어떻게 표시해야합니까? 이미 사용 가능한 샘플 데이터가 있습니까? 어떤 도움이 유용 할 것입니다. 나는 거의 일주일 동안 그물에서 수색했고, 지금 도움을 위해 같은 것을 게시했다. 미리 감사드립니다.NLP - 문장 분할
0
A
답변
2
내가 아는 한, 문장 분리자는 전형적으로 일련의 규칙 (고려해야 할 구두점 문자)과 몇 가지 자동 학습 된 가중치 (예외가있는 마침표와 같은 약어와 같은 하이브리드로 구현됩니다. 완전히 멈추다). 무게는 감독없이 배울 수 있습니다.
그러나 일반 ML 기반 시스템을 사용하여이 문제에 접근하는 것은 흥미로운 아이디어입니다. 감독 구성표의 경우 BIO
레이블이있는 문자 기반 시퀀스 라벨링 모델을 사용해 볼 수 있습니다. 예측 된 출력은 다음 또한 BIIIIO...
될 것
This is it! I'm leaving Dr. Smush in his box.
BIIIIIIIIIIOBIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII
, 당신은 O
표시된 문자에서 원본 텍스트를 분할해야합니다 : 예를 들어, 훈련 데이터는 다음과 같이 할 수있다. 이것이 최선의 방법인지 확신 할 수 없지만 시도해 보면 좋을지 알려주세요. 높은 주문 (3, 4, 5 그램 또는 그 이상)의 n- 그램을 단어 토큰이 아닌 문자이기 때문에 사용하십시오.
교육 데이터의 경우 언어로 주석 처리 된 모든 코퍼스를 사용할 수 있습니다. 왜냐하면 모든 문장 분할 (예 : NLTK에 포함 된 구문보기)이기 때문입니다. 훈련을 위해 BIO
라벨을 생산하기 만하면됩니다.
관련 문제
- 1. NLP - 문장 토큰의 '시작'과 '끝'선택
- 2. 분할 문장
- 3. NLP : 양적 "긍정적"대 "부정적인"문장
- 4. 단어로 자바 분할 문장
- 5. C# 문장 분할
- 6. 문장
- 7. 문장 경계에서 텍스트 파일 분할
- 8. 내 기능의 오류 (분할 문장)
- 9. 파이썬 : 문장 분할 그래서 내가 어떤 문장 같은이 공백
- 10. Stanford NLP training documentpreprocessor
- 11. 스탠포드 NLP 심리,
- 12. 문장
- 13. 큰 텍스트 파일에서 nltk를 사용하는 문장 분할
- 14. 큰 SQL 파일을 문장 경계에서 분할 하시겠습니까?
- 15. 단어, 구두점 및 따옴표로 JAVA 분할 문장
- 16. 시끄러운 텍스트 자료에서 문장 분할 및 표기
- 17. 방법 분할 문장 및하자 ASCII 문자 만
- 18. 공백과 문장 부호가있는 C++ 분할 문자열
- 19. 문장 구성 : java의 문장 부호 검사
- 20. NLP - 문장의 제목
- 21. 초등부 문장 구성
- 22. Stanford NLP 종속성 구문 분석 시나리오
- 23. 문장
- 24. 문장
- 25. 문장
- 26. 파이썬 : 문장
- 27. 문장의 문장 토큰 화가 나쁜 (?)
- 28. 입력 문장에 구두점이없는 경우 사용할 문장 분할 도구
- 29. nltk.sent_tokenize를 사용하여 문장 분할, 올바른 결과를 제공하지 않습니다.
- 30. 다른 출력을주는 C# Stanford NLP 온라인 데모
코끼리는 다음과 같이합니다. http://gmb.let.rug.nl/elephant/about.php – alvas
멋진 덕분입니다. – lenz