2010-12-23 2 views
1

내 응용 프로그램에서 줄기 단어를 얻으려면 포터 줄기 알고리즘을 사용해야하지만 내가 http://www.tartarus.org/~martin/PorterStemmer에서 얻은 알고리즘을 테스트 할 때 형태소 분석의 결과가 올바른 줄기 단어를주지 않습니다. 예 : 행복 -> happi 바이러스 -> viru 등 해결할 수 있습니까?포터 스 트리머 알고리즘의 결과가 왜 나는 근본 단어에 맞지 않았는가?

+2

당신의 질문은 꽤 모순됩니다 ... – Falmarri

답변

2

당신의 link에서 인용 :

2. 왜 형태소 분석기가 생산되지 않는 적절한 단어?

스템 밍 알고리즘이 줄기를 제거한 후에 실제 단어를 남기지 않는 것은 종종 실수로 간주됩니다. 그러나 형태소 분석의 목적은 변종 형태의 단어를 모아 '패러다임 (paradigm)'형태로 단어를 연결하지 않는 것입니다.

그리고 연결된이

3. 왜 오류가 있습니까?

일반적으로 질문은 형태가 x2에 스템프 될 것으로 예상되었을 때 X가 x1로 스템 팅되어야하는 이유는 무엇입니까? 형태소 분석 알고리즘이 완벽을 성취 할 수 없다는 것을 기억하는 것이 중요합니다. 균형을 이루면 정보 검색 성능이 향상 될 수도 있지만 개별적인 경우에는 때로는 정보가 오류가되거나 오류가되는 것처럼 보일 수 있습니다. 물론, 이것은 성능 향상을 위해 형태소 분석기에 포함될 수있는 추가 규칙을 제안하는 것과는 다른 문제입니다.

+0

그래서 나는 추가 규칙을 가지고 있습니까? – user495688

+0

할 수는 있지만 지금까지만 가능합니다. 포터 스테 밍 알고리즘은 관련 단어를 식별하기위한 것입니다. 관련 단어는 표준 형태로 변형되었지만 문법적으로 올바른 단어 일 필요는 없습니다. 줄기 모양을 직접 사용하지 않으려는 경우 문제가되지 않습니다. – Rekin

관련 문제