나는 예를 들어 태그의 일부는, 우리는주어진 텍스트를 다른 카테고리에 자동으로 할당하는 방법은 무엇입니까?
카테고리가 태그 등
뷰티 활동 쇼핑은 일부 범주를 보유하고있는이 프로젝트에서 일하고 있어요 :
Beauty => Haircut, spa, manicure, personal trainer
Activities => personal trainer, biking
Shopping => Jewelery, Shirts, Socks
태그에는 카테고리와의 관련성을 나타내는 순서가 있습니다. 예를 들어, 이발이라는 단어가 미용 관련 가능성이 가장 높기 때문에 이발은 미용에서 가장 먼저 나타납니다.
"개인 트레이너"태그가 두 개 이상의 카테고리에 속하므로 텍스트에 개인 트레이너가있는 경우 뷰티 또는 활동과 관련 될 수 있습니다.
또한 각 태그가 텍스트에서 발견 된 횟수를 기록하므로 각 태그에는 발견 된 값이 있습니다.
이제 새로운 텍스트가 처리 될 때, 나는 그 안에있는 모든 태그를 검색하여 주어진 텍스트에서 얼마나 많은 횟수가 발생했는지 확인합니다. 샘플 텍스트에 대한 결과는 다음과 같습니다
Haircut => 4
personal trainer => 1
manicure => 1
spa => 0
이 보면 우리가 텍스트가 아름다움에 속한다고 알고 있습니다.
내 질문은 다음과 같습니다. 1- 주어진 입력을 갖고 범주가 연관된 태그 배열을 사용하여이 텍스트가 속한 범주를 프로그래밍 방식으로 결정하는 방법은 무엇입니까? 좋은 생각인가요? 이 일을 더 우아한 방법이 있습니까?
2 이것을 수행하는 좋은 방법입니까 아니면 더 좋은 알고리즘입니까? 나는 이것을 처리 할 때 lucene 또는 좀 더 지능적인 알고리즘이 등장 할 수 있다고 생각하고있었습니다.
진실을 말하면 정보 검색을 생각 나게합니다 (Google이하는 일입니다). 정보 검색에는 많은 알고리즘이 있습니다. PHP로 작성된 것을 찾을 수도 있습니다. 그래서 처음부터 그것을 발견 할 필요가 없습니다. – Melsi