2008-09-15 3 views

답변

0

콘텐츠를 분류는 텍스트 나 멀티미디어 할 수있는 가장 좋은 방법은 taxonomy를 사용하는 것입니다가. 잘 알려진 대부분의 CMS는 분류법을 지원합니다. Drupal에는 다양한 CMS 중에서 taxonomy에 대한 최상의 지원 중 하나가 있습니다.

+2

나는 이것을 가장 좋은 방법이라고 생각하지 않습니다. 나는 그것을 길 *이라고 부를 것입니다. –

2

나는 Natural Language Toolkit와 함께 번들로 텍스트 분류 라이브러리를 살펴 보시기 바랍니다 것 . 비록 당신이 파이썬에 익숙하지 않더라도 당신은 API를 다소 직관적이라고 생각할 것입니다. NLTK Book에 많은 좋은 예가 있으며 메일 링리스트의 사람들도 매우 도움이됩니다.

0

텍스트 분류를 수행하는 가장 간단한 방법은 bag-of-words 표현을 사용하는 것입니다. 각 문서에있는 단어의 단어/n-gram을 기능으로 사용할 수 있습니다. 이를 통해 모든 문서를 미터법 공간의 벡터로 나타낼 수 있습니다. 그런 다음 clustering을 적용하여 콘텐츠 측면에서 유사한 문서를 그룹화 할 수 있습니다. 예를 들어, 이러한 벡터와 k-means 클러스터링을 사용하여 어휘 적으로 비슷한 문서를 함께 클러스터링 할 수 있습니다.

파이썬 기반의 텍스트 마이닝 작업대 인 NTLK은 이러한 작업을 빠르게 수행 할 수 있습니다 (일반적으로 파이썬은 텍스트 작업에 매우 유용합니다). 유용 할 수 있습니다.

관련 문제