2014-05-17 4 views
0

데이터 마이닝 기술에 익숙하지만 텍스트 마이닝이나 웹 마이닝에는 익숙하지 않습니다.다중 레이블 분류 문서화 - 레이블은 어디서 구합니까? 존재론?

다음은 간단한 작업입니다. 기사를 일련의 범주로 분류하십시오. 가정 해 보겠습니다. 기사의 텍스트 콘텐츠를 추출하여 처리했습니다.

미리 정의 된 레이블은 어디서 어떻게 구할 수 있습니까? 온톨로지, 분류법을 플러그인 할 수 있으며 필요에 따라 세분화 될 수 있습니까? 분류 작업은 다중 레이블 분류입니다.

이 경우 근사 일치를 위해 n-gram을 사용합니까?

현재 텍스트에서 추출한 테마와 엔티티가 있습니다. Vowpal Wabbit을 사용할 수 있습니까?

답변

1

미리 정의 된 라벨은 어디서 어떻게 구할 수 있습니까?

분류학 및 온톨로지 정보가있는 많은 벤치 마크 텍스트 데이터 세트가 있습니다. Wordnet은 텍스트 분석 연구에 사용되는 벤치 마크 데이터 세트 중 하나입니다. This은 분류 체계를 사용하여 Wordnet에서 텍스트 분석을위한 의미 론적 유사성에 도달하는 데 초점을 맞춘 첫 번째 논문입니다. . This은 비슷한 목적을 다루는 최근의 좋은 논문입니다.

온톨로지와 분류법을 플러그인 할 수 있으며 필요에 따라 세분화가 가능합니까?

예. 개념 (이 경우 텍스트 문서의 개념) 중에 존재하는 분류학 및 온톨로지를 기반으로 의미 론적 유사성에 도달하는 연구 하위 필드가 있습니다. 이 paper은 온톨로지 및 분류학을 문서 간의 유사성을 측정하는 기술에 대한 개요 및 비교 연구를 제공합니다. // 필요에 따라 세부적으로 이동합니다. // - 가능합니다. 세밀도를 제어하는 ​​새로운 유사성 측정 값에 도달하여 수행 할 수 있습니다. 많은 연구가 이것과 관련됩니다. 이 paper은 최근의 예입니다.

대략적인 일치를 위해이 경우 n 그램을 사용합니까?

가능하지만 위의 논문에서는 문서의 개념을 모델링하는 방법이 덜 세분화되어 있습니다. 그들 대부분은 용어의 n-gram이 아닌 tf-idf를 사용합니다.

+0

답변을 주셔서 감사 드리며, NLP로 시작하는 것이 좋습니다. – mel

관련 문제