2010-12-20 4 views
2

누구나 자동 태깅 (블로그 게시/문서) 알고리즘을 만드는 방법을 알고 있습니까? 모든 예제가 인정 될 것입니다.자동 태깅 알고리즘

+3

"태깅"은 일반적으로 포크로 노믹 분류로 간주됩니다. 정의에 따르면 자동으로 수행 할 수는 없습니다. "군중의 지혜"에 의존하기 때문에 (그리고 폭도들의 어리 석음을 피하면서) 적절한 태그를 선택하는 것이기 때문입니다. IMO, 다른 키워드 선택 방식이 자동화 될 수 있지만 알고리즘에 의해 완료되면 "태그 지정"하지 않습니다. – geoffspear

답변

0

나는 Wooble이 말하는 것에 동의합니다. 그러나 순진한 해결책은 단순히 텍스트 모음과 비교하여 주어진 블로그 게시물의 어휘 적 유사점과 차이점을 계산하는 알고리즘을 작성하는 것입니다. 이 어휘의 차이는 코퍼스에서 발견되는 것보다 더 많은 빈도로 블로그 게시물에있는 단어를 제공합니다. 그리고 그 단어들에서, 당신은 꼬리표를 추론 할 수 있습니다.

하지만 강력히 권장합니다. 자동 태그 추가가 실제로 작동하지 않는 것 같습니다.

경우 : - 그냥 Mechanical Turk

0

늦은 응답 등의 서비스 사용자에게 나에 태그 작업을 아웃소싱뿐만 아니라 과정에 대해이 작업을했다 그래서 경우에 다른 사람이 탐험 찾고를, 여기에 출발점이 될 것입니다 당신은 간단한 해결책을 원하거나 기계 학습 운동을 원할 때 자동 태깅을 텍스트 분류/분류 작업으로 볼 수 있습니다. Naive Bayes 분류자는 알아낼 수있는 간단한 도구이며이를 이해할 수있는 많은 의사 코드 및 자료가 있습니다. TFIDF (용어 빈도 - 역 문서 빈도) 측정 항목은 사용자가 조사 할 수있는 또 다른 항목입니다. 일반적으로 정보 검색과 관련되어 있지만 다른 컴퓨터 학습 기술과 함께 사용하면이 문제에 대해 해결할 수 있습니다.

그러나 새 샘플에 NB 분류기의 정의를 기반으로 한 단일 레이블을 할당하는 대신 여러 레이블을 결정해야합니다. 아마도 이것을 돕기 위해 트레이닝 세트의 태그 동시 발생 정보를 사용할 수 있습니다.

이것은 단순하고 단순한 솔루션이며 기능 선택을 생략 한 것에 대한 세부 정보 (독립 매개 변수, 정보 획득 등을 줄이기위한 형태소 분석)가 있습니다. 이 연구 주제에 대해 쉽게 접근 할 수있는 많은 논문을 사용해보십시오!

관련 문제