2014-07-09 2 views

답변

1

이 복잡하고 여러 단계의 과정 일 수 있지만, 일반적으로 수

  1. 데이터를 단락, 문장 및 단어로 토큰 화합니다.이 작업을 수행 할 수있는 도구의 예로는 http://nlp.stanford.edu/software/tokenizer.shtml이 있습니다. http://alias-i.com/lingpipe/은 또 다른 예입니다.

  2. 토큰 화 된 후에는 "a", "the", "ha", "lol", "omg"등과 같이 일반적이지 않은 일반 단어 ("중지 단어"라고도 함)를 버립니다. 토큰 화 프로그램에는 일반적으로 이들을 식별하고 처리 할 수있는 메소드가 내장되어 있습니다.

  3. n-grams (함께 나오는 단어)를 식별하십시오. 예를 들어 "Bay"와 "Area"라는 단어는 두 단어이지만 한 단어 인 "Bay Area"로 간주되는 경우가 많습니다. 이처럼 엔티티를 식별하여 올바르게 분류해야합니다.

  4. 품사를 그룹화합니다. 예를 들어, 동사, 부사를 버리고 카테고리 분류에 명사와 형용사 만 사용하면 편리합니다.

  5. 마지막으로 카테고리별로 데이터를 슬라이스 앤 다이스.

관련 문제