2010-04-25 4 views
1

관련 :Java : API에서 remove-common-words-method?

  1. Forum post

바퀴를 개혁하기 전에, 나는 그런 방법이 있는지 여부를 알 필요가있다. list과 같은 목록에 따라 단어를 제거하는 것은 어렵지 않지만 스트립 핑에서 가장 강조 할 단어, 문맥은 어떨까요?

+0

Cucumber (http://cukes.info/)의 소스 코드 (영어 사용과 같은 공통 언어 방식)를 사용하여 테스트 케이스를 정의하는 데 관심이있을 수 있습니다. –

답변

2

텍스트에서 "stop words"을 제거하려고 한 것 같습니다. 링크에서 list of English stopwords을 찾을 수 있습니다. 사용하는 정지 단어의 수에 따라 HashSet 개의 단어를 만드는 것이 더 효율적일 수 있으므로 contains() 함수를 사용하여 단어가 일정 시간에 중지 단어인지 여부를 알 수 있습니다. 전체 텍스트를 필터링하면 단어 수가 선형 시간이 걸립니다. 이것은 당신이 그것을하기위한 라이브러리를 찾지 못할 것이라는 간단한 조작이지만, 오래 걸리지 않아야합니다.

사용할 단어를 선택하는 측면에서 ... 실제로 수행하려는 작업에 따라 다릅니다. bag of words model에서 기계 학습 알고리즘을 수행하는 경우 단어의 다른 선택을 시도하고 어느 것이 최소 유효성 오류로 이어지는 지 확인해야합니다. 문맥의 관점에서, 많은 단어가 실제로 필요하지 않습니다. "the"또는 "a"또는 "an"을 떨어 뜨렸을 때 영어를 잘 말하는 사람은 누구에게나 말할 수 있습니다. 특정 모호성 제거에 중요한 공통 단어가있을 수 있지만 응용 프로그램에 따라 필요하지 않을 수도 있습니다. 예를 들어, 누가 무엇을했는지 알고 싶다면 "그", "그녀"등을 제거하는 것이 문제 일 수 있지만 그러한 행동이 발생했는지 그리고 정말로 누가 그것을했는지 신경 쓰면 대명사를 삭제하는 것이 좋습니다.

관련 문제