5

Google 뉴스와 같은 뉴스 아울렛이 어떻게 "obama 's 2011 budget"과 같은 신흥 주제에 대한 문서를 자동으로 분류하고 순위를 매기 는가?들어오는 데이터의 새 트렌드를 맹목적으로 분류

나는 선수 이름과 기사 (감사, opencalais)와의 관련성이있는 야구 자료가 포함 된 기사 더미를 확보하고 있으며 새로운 소식을 순위가 매겨 표시하는 Google 뉴스 스타일 인터페이스를 만들고 싶습니다. 특히 신흥 주제에 대해 나는 순진한 bayes 분류기가 몇몇 정적 카테고리로 훈련 될 수 있다고 생각하지만 이것은 "이 선수가이 팀과 거래를 한 것 뿐이며 다른 선수들도 참여했다"는 추세를 추적 할 수는 없다.

+0

왜 파이썬 태그입니까? – mjv

+0

누이, 내 잘못. 그것 지금 갔다. 고마워. – Carson

+0

보이지 않는 항목을 일반화 할 수있는 방법을 의미합니까? – bayer

답변

4

의심 할 여지없이, Google 뉴스는 계산이 단어는 그 의미를 얻을 수 하는 NLP의 개념을 악용 무료 텍스트에서 주제를 추론하는 다른 트릭 (또는 그 심지어 조합), 그러나 하나 개 상대적으로 싼 트릭을 사용할 수있다 다른 단어에 연결된 경우에만.

  • POS (품사) 우리는 아마 훨씬 더 어쩌면 명사에 더 초점을 맞추고 자와
    텍스트 태그 :
    여러 문서에서 새로운 주제 범주를 발견의 취약 알고리즘은 다음과 같이 요약 될 수있다 그래서이라는 실체에
  • (예 : 뉴 잉글랜드 오바마 또는 ) 공통의 줄기에 의해 굴절 단어를 대체 특히 텍스트
    를 정상화. 어쩌면 상응하는 명명 된 개체 (예 : Parisian ==> Paris, legal ==> law)로 형용사를 바꿀 수도 있습니다.
    또한 노이즈 단어 및 노이즈 표현식을 제거하십시오.
  • 이 일부 N-그램에 더 많은 무게를 제공하기 위해 다음 단계에서 사용할 수있는
    (... 슈퍼 볼, 선거, 스캔들) "현재/반복 뜨거운 단어를"유지 수동으로 목록에서 일부 단어를 식별
  • 각 문서에서 발견되는 모든 N- 그램을 열거하십시오 (N은 1에서 4 또는 5라고 말합니다)
    주어진 문서 내 각 N 그램의 발생 횟수와 주어진 N 그램
  • 가장 자주 인용되는 N 그램 (즉, 대부분의 문서에서 인용 된 것)이 아마도 주제 일 것입니다.
  • 는 (알려진 주제의 목록에서) 기존 주제를 식별
  • [선택적] 수동이 일반적인 조리법은 또한 문서의 다른 속성을 활용하여 변경할 수 있습니다 새로운 주제

그 안에 텍스트 검토 . 예를 들어 문서 원본 (예 : cnn/sports 대 cnn/politics ...)을 사용하여 도메인 별 사전을 선택할 수 있습니다. 또 다른 예로 프로세스는 문서 제목 (또는 특정 마크 업이있는 텍스트의 다른 영역)에서 단어/표현을 다소 강조 할 수 있습니다. Google 뉴스 뒤에