RSS 뉴스 수집기는 데이터를 어떻게 분류합니까?

뉴스 수집기는 "정치적", "비즈니스"등과 같은 카테고리에 기사를 올리려면 어떻게해야합니까? 검색했지만 결과가 없습니다. .? 피드의 방법이 달성하지 않으면 RSS의 목록 범주에 의해 공급이 포함 된 공용 데이터베이스가 있습니까RSS 뉴스 수집기는 데이터를 어떻게 분류합니까?

출처

2014-07-09 Justin Golden

이 복잡하고 여러 단계의 과정 일 수 있지만, 일반적으로 수

데이터를 단락, 문장 및 단어로 토큰 화합니다.이 작업을 수행 할 수있는 도구의 예로는 http://nlp.stanford.edu/software/tokenizer.shtml이 있습니다. http://alias-i.com/lingpipe/은 또 다른 예입니다.
토큰 화 된 후에는 "a", "the", "ha", "lol", "omg"등과 같이 일반적이지 않은 일반 단어 ("중지 단어"라고도 함)를 버립니다. 토큰 화 프로그램에는 일반적으로 이들을 식별하고 처리 할 수있는 메소드가 내장되어 있습니다.
n-grams (함께 나오는 단어)를 식별하십시오. 예를 들어 "Bay"와 "Area"라는 단어는 두 단어이지만 한 단어 인 "Bay Area"로 간주되는 경우가 많습니다. 이처럼 엔티티를 식별하여 올바르게 분류해야합니다.
품사를 그룹화합니다. 예를 들어, 동사, 부사를 버리고 카테고리 분류에 명사와 형용사 만 사용하면 편리합니다.
마지막으로 카테고리별로 데이터를 슬라이스 앤 다이스.

출처

2014-07-09 06:11:09 Geremy

RSS 뉴스 수집기는 데이터를 어떻게 분류합니까?

답변

관련 문제