2011-09-15 3 views
0

나는 예를 들어 태그의 일부는, 우리는주어진 텍스트를 다른 카테고리에 자동으로 할당하는 방법은 무엇입니까?

카테고리가 태그 등

뷰티 활동 쇼핑은 일부 범주를 보유하고있는이 프로젝트에서 일하고 있어요 :

Beauty => Haircut, spa, manicure, personal trainer 
Activities => personal trainer, biking 
Shopping => Jewelery, Shirts, Socks 

태그에는 카테고리와의 관련성을 나타내는 순서가 있습니다. 예를 들어, 이발이라는 단어가 미용 관련 가능성이 가장 높기 때문에 이발은 미용에서 가장 먼저 나타납니다.

"개인 트레이너"태그가 두 개 이상의 카테고리에 속하므로 텍스트에 개인 트레이너가있는 경우 뷰티 또는 활동과 관련 될 수 있습니다.

또한 각 태그가 텍스트에서 발견 된 횟수를 기록하므로 각 태그에는 발견 된 값이 있습니다.

이제 새로운 텍스트가 처리 될 때, 나는 그 안에있는 모든 태그를 검색하여 주어진 텍스트에서 얼마나 많은 횟수가 발생했는지 확인합니다. 샘플 텍스트에 대한 결과는 다음과 같습니다

Haircut => 4 
personal trainer => 1 
manicure => 1 
spa => 0 

이 보면 우리가 텍스트가 아름다움에 속한다고 알고 있습니다.

내 질문은 다음과 같습니다. 1- 주어진 입력을 갖고 범주가 연관된 태그 배열을 사용하여이 텍스트가 속한 범주를 프로그래밍 방식으로 결정하는 방법은 무엇입니까? 좋은 생각인가요? 이 일을 더 우아한 방법이 있습니까?

2 이것을 수행하는 좋은 방법입니까 아니면 더 좋은 알고리즘입니까? 나는 이것을 처리 할 때 lucene 또는 좀 더 지능적인 알고리즘이 등장 할 수 있다고 생각하고있었습니다.

+0

진실을 말하면 정보 검색을 생각 나게합니다 (Google이하는 일입니다). 정보 검색에는 많은 알고리즘이 있습니다. PHP로 작성된 것을 찾을 수도 있습니다. 그래서 처음부터 그것을 발견 할 필요가 없습니다. – Melsi

답변

1

클래스를 정의 할 수 있으면 Naive Bayes를 기반으로하는 방법으로 작업을 수행 할 수 있습니다. 그것은 일반적으로 사용되는 분류 자 ​​중 하나입니다.

프로그램에서 자동으로 정의 된 클래스를 원한다면 지금은 아무런 효과가 없습니다.

+0

베이 즈 (Bayes)는 제가 찾고 있던 키워드였습니다. 정말 놀라운 기사를 발견해 주셔서 감사합니다. http://www.ibm.com/developerworks/web/library/wa-bayes1/ – Yasser1984

관련 문제