데이터 마이닝 기술에 익숙하지만 텍스트 마이닝이나 웹 마이닝에는 익숙하지 않습니다.다중 레이블 분류 문서화 - 레이블은 어디서 구합니까? 존재론?
다음은 간단한 작업입니다. 기사를 일련의 범주로 분류하십시오. 가정 해 보겠습니다. 기사의 텍스트 콘텐츠를 추출하여 처리했습니다.
미리 정의 된 레이블은 어디서 어떻게 구할 수 있습니까? 온톨로지, 분류법을 플러그인 할 수 있으며 필요에 따라 세분화 될 수 있습니까? 분류 작업은 다중 레이블 분류입니다.
이 경우 근사 일치를 위해 n-gram을 사용합니까?
현재 텍스트에서 추출한 테마와 엔티티가 있습니다. Vowpal Wabbit을 사용할 수 있습니까?
답변을 주셔서 감사 드리며, NLP로 시작하는 것이 좋습니다. – mel