2011-11-17 3 views
1

텍스트 요약의 문제를 다루고 있습니다. 즉, 큰 텍스트 청크가 주어지면 가장 대표적인 "주제"또는 텍스트의 제목을 찾고 싶습니다. 이를 위해 TF-IDF, Residual IDF, Pointwise Mutual Information 등의 다양한 정보 이론을 사용하여 본인의 코퍼스 사전을 작성했습니다. 이 사전에는 본문에서 언급 된 중요한 단어가 포함되어 있습니다.내 기술을 어떻게 평가할 수 있습니까?

나는 수동으로 TFIDF 측정 값에 따라 정렬 된 전체 50,000 개의 문구 목록을 손으로 떼어내어 2,000 개의 문구를 손으로 골랐다. (나는 알고있다! 이것을하기 위해 15 시간이 걸렸다. 물론. 이제 이것을 사전으로 사용하고 텍스트에 대한 간단한 주파수 분석을 실행하고 최고 k 구를 추출 할 때 기본적으로 주제가 무엇인지보고 있으며 내가 본 내용에 동의합니다.

이제 어떻게이 방법을 평가할 수 있습니까? 여기에는 기계 학습이나 분류가 포함되어 있지 않습니다. 기본적으로 사전을 작성하고 사전을 사용하여 단순한 주파수 분석을 수행하는 일부 NLP 기술을 사용하여 내가 원하는 주제를 제공합니다. 그러나 시스템의 정확성 또는 다른 것을 측정하기 위해 할 수있는 공식적인 분석이 있습니까?

답변

1

저는 기계 학습의 전문가는 아니지만, cross-validation을 사용할 것입니다. 예를 들어 1000 페이지의 텍스트를 "훈련"하는 알고리즘 ("인간이 루프에 있지만 아무런 문제가 없음")이 있으면 몇백 개의 테스트 페이지를 가져갈 수 있으며 "톱 -k 구문 알고리즘"을 사용하여 " 주제 "또는"주제 ". 알고리즘의 결과에 동의하는 테스트 페이지의 비율 인 은 메소드가 얼마나 잘 수행되는지에 대한 (다소 주관적인) 척도를 제공합니다.

+0

당신이 이해한다면, 텍스트 페이지를 분석하고, 키워드를 줄 수있는 소프트웨어가 있습니다. 이것은 알고리즘이 있다는 것을 의미합니다. 몇백 페이지를 던져 각각에 대해 키워드 세트를 수집하십시오 . 그런 다음 각 페이지를 읽고 키워드 세트가 텍스트의 주제를 제대로 설명하는지 여부를 결정하십시오. 개인적인 편견을 피하려면 자원 봉사자에게 키워드의 장점을 1 대 10으로 평가하십시오. 텍스트와 키워드를 웹에 올리고 crowdsourcing을 사용할 수도 있습니다. – kol

+0

+1 흥미 롭습니다! 유일한 문제는 이제 자원 봉사자를 찾는 것이 도메인 별 문제 (의료)이므로 자원 봉사자를 찾는 것이 어렵 기 때문에 기본 crowdsourcing은 자원 봉사자를 찾기가 어려울 수 있으므로 작업하기가 어려울 수 있습니다. 좋은 crowdsourcing 접근법을 찾을 수 있습니다. 시간 내 주셔서 감사합니다. – Legend

+0

나는 의대생에게 질문 할 것입니다. - 환영합니다. – kol

관련 문제