2009-07-01 4 views
4

많은 양의 텍스트 데이터를 가져 와서 분류하는 방법을 찾고있는 고객이 있습니다. 이 데이터는 분류되어야하며이를 수행하는 가장 쉬운 방법은 설명 필드를보고 거기에 보유 된 단어를 일치시켜 특정 레코드에 대해 카테고리를 도출 할 수 있는지 확인하는 것입니다.동의어 스타일 텍스트 조회 및 구문 분석

이 작업을 수행하는 가장 좋은 방법은 키워드를 각 카테고리에 대해 보유하고있는 핵심어와 일치시키는 것으로 생각했으며, 성공하지 못하면 동의어를 사용하여 대신이 단어를 사용할 수 있는지 확인하십시오. 예를 들어 특정 레코드에 "자동차"라는 단어가있는 경우 동의어 검색을 사용하면 해당 단어를 카테고리 "차량"에 대해 보유 할 "자동차"라는 단어와 일치시킬 수 있습니다.

누구든지 웹 서비스 또는 특정 단어에 대한 동의어를 찾기 위해 사전을 찾는 다른 방법을 알고 있습니까? 프로젝트 관리자는이를 위해 Google Enterprise Search 라이센스를 구입할 것을 제안했지만, 내가 할 수있는 것에서는이 사람들이 찾고있는 것을 제공하지 않습니다.

다른 고객이 원하는 것을 얻으려는 제안은 감사히 받아 들여질 것입니다.


고마워요! Wordnet을 살펴볼 것입니다.

다른 유형의 텍스트 분류 소프트웨어 제품에 대해 알고 계십니까? 거기에 대한 Bayasian 알고리즘을 사용하여 몇 가지 논의를 볼 수 있지만 그것을 실제 세계 예제를 볼 수 없습니다.

답변

6

가장 먼저 떠오르는 것은 Wordnet입니다. Wordnet은 동의어를 포함하여 인간이 생성 한 단어 및 관련 단어 데이터베이스입니다. The Wikipedia Wordnet entry은 Wordnet에 대한 몇 가지 인터페이스를 나열합니다. 나는 그들 중 일부가 웹 서비스라고 믿는다. 자신 만의 롤백도 가능합니다. Manning and Schutze's chapter 5 (free PDF)이이를 수행하는 방법을 보여줍니다.

그런 말을하는 것이 맞습니까? 문제가 해결 되었습니까? 카테고리 목록은 어떻게 작성합니까? 계층 구조입니까? 태그 구름? 계층 적 범주에 대한 비판은 Clay Shirky's Ontology is Overrated을 참조하십시오. 나는 단어 집합 (예를 들어, Naive Bayes)에 기초하여 분류하는 경우 동의어가 덜 중요하다고 생각합니다.

1

WordNet을 사용해야합니다. 더 많은 정보를 얻으려면 자신의 웹 사이트 http://wordnet.princeton.edu/을 방문 할 수 있지만 많은 언어로 된 라이브러리와 통합 할 수있는 라이브러리가 있습니다.

온라인 도구로 이동하여 사용 방법을 보려면 http://wordnetweb.princeton.edu/perl/webwn을 참조하십시오. 단어를 찾은 다음 각 정의 옆에있는 "S"를 클릭하면 의미 론적으로 관련된 단어의 목록이 해당 정의에 표시됩니다.

"문서 클러스터링"을 수행 할 수있는 소프트웨어를 확인해야한다고 생각합니다. 다음은 예입니다. http://glaros.dtc.umn.edu/gkhome/cluto/cluto/overview. 카테고리 생성 프로세스를 부트 스트랩하는 데 도움이됩니다.

나는 이것이 당신이 원하는 것을 향해 당신을 길게하는 데 도움이 될 것이라고 생각합니다!

0

텍스트 분류의 경우 Apache Mahout을 살펴볼 수 있습니다.