내 응용 프로그램에서 줄기 단어를 얻으려면 포터 줄기 알고리즘을 사용해야하지만 내가 http://www.tartarus.org/~martin/PorterStemmer에서 얻은 알고리즘을 테스트 할 때 형태소 분석의 결과가 올바른 줄기 단어를주지 않습니다. 예 : 행복 -> happi 바이러스 -> viru 등 해결할 수 있습니까?포터 스 트리머 알고리즘의 결과가 왜 나는 근본 단어에 맞지 않았는가?
답변
당신의 link에서 인용 :
2. 왜 형태소 분석기가 생산되지 않는 적절한 단어?
스템 밍 알고리즘이 줄기를 제거한 후에 실제 단어를 남기지 않는 것은 종종 실수로 간주됩니다. 그러나 형태소 분석의 목적은 변종 형태의 단어를 모아 '패러다임 (paradigm)'형태로 단어를 연결하지 않는 것입니다.
그리고 연결된이
3. 왜 오류가 있습니까?
일반적으로 질문은 형태가 x2에 스템프 될 것으로 예상되었을 때 X가 x1로 스템 팅되어야하는 이유는 무엇입니까? 형태소 분석 알고리즘이 완벽을 성취 할 수 없다는 것을 기억하는 것이 중요합니다. 균형을 이루면 정보 검색 성능이 향상 될 수도 있지만 개별적인 경우에는 때로는 정보가 오류가되거나 오류가되는 것처럼 보일 수 있습니다. 물론, 이것은 성능 향상을 위해 형태소 분석기에 포함될 수있는 추가 규칙을 제안하는 것과는 다른 문제입니다.
그래서 나는 추가 규칙을 가지고 있습니까? – user495688
할 수는 있지만 지금까지만 가능합니다. 포터 스테 밍 알고리즘은 관련 단어를 식별하기위한 것입니다. 관련 단어는 표준 형태로 변형되었지만 문법적으로 올바른 단어 일 필요는 없습니다. 줄기 모양을 직접 사용하지 않으려는 경우 문제가되지 않습니다. – Rekin
- 1. 스 트리머 (또는 확장기)를 gridview에 삽입하십시오.
- 2. Lucene.NET에 대한 문화 독립형 스 트리머/분석기
- 3. 포터 또는 포터 2 루팅 알고리즘을위한 MySQL 루틴
- 4. 오픈 소스 웹 서비스/WCF 미디어 스 트리머
- 5. 페이지의 일부분 (오디오 스 트리머)이 포스트 백이 아닙니다.
- 6. 포터 스템머와 웨카
- 7. 인터페이스 객체가 왜 순서가 맞지 않게 반응합니까?
- 8. 왜 PictureBox에 결과가 표시되지 않습니까?
- 9. GZip 알고리즘의 결과가 Android와 .Net에서 동일하지 않은 이유는 무엇입니까?
- 10. 러시아어 포터 (JavaScript에서 형태소 분석)
- 11. 왜 나는 애니메이션에서 CATransaction을 사용해야합니까?
- 12. 왜 JodaTime 및 달력 반환 다른 결과가
- 13. 왜 Module.sum (: field)의 결과가 정수입니까?
- 14. 왜 TF-IDF 결과가 하나 뿐인가요?
- 15. 왜 Apache 벤치 마크 결과가 일관성이 없습니까?
- 16. 왜 쿼리 코드에 모든 결과가 표시되지 않습니까?
- 17. "org.apache.jasper.runtime.PageContextImpl.handlePageException"예외의 근본 원인은 무엇입니까?
- 18. Java 근본 원인 java.lang.OutOfMemoryError 오류
- 19. 바꿈은 모든 단어에 대해 작동하지 않습니다 (?!)
- 20. 왜 인용 더블 나는 간단한 리눅스 스크립트가
- 21. 알고리즘의 복잡성
- 22. Porter2 스템 머의 Java 구현이 있습니까
- 23. 작은 따옴표로 단어에 일치
- 24. Lucene Porter Stemmer 스레드 안전?
- 25. WinForms 버튼 위치 - 맞지 않아야합니다.
- 26. 알고리즘의 약식 이름
- 27. Application_BeginRequest에 맞지 않습니다.
- 28. 피보나치 알고리즘의 시간 복잡성
- 29. GJK- 알고리즘의 지원 기능
- 30. 이 알고리즘의 이름이 있습니까?
당신의 질문은 꽤 모순됩니다 ... – Falmarri