2012-09-20 2 views
1

주어진 텍스트 작성자를 식별 할 수있는 프로젝트가 하나 있는데, 해당 블로그 특정 작성자를 위해 교육 데이터와 코퍼스를 만드는 방법은 무엇입니까?"작성자 식별"단계를 제안 하시겠습니까?

동일한 링크와 알고리즘을 제안하십시오.

+1

스택 오버 플로우에 오신 것을 환영합니다! 이 질문은이 사이트에서 잘 대답하기에는 너무 광범위합니다. [FAQ] (http://stackoverflow.com/faq#dontask)에서 설명했듯이 "귀하의 질문은 합리적으로 범위가 있어야합니다. 귀하의 질문에 대답하는 전체 책을 상상할 수 있다면 너무 많이 묻는 것입니다." –

답변

3

저자 식별을위한 많은 접근법이 있습니다. NLP에 익숙해 진 것처럼 보였으므로 기본 단어 모음 벡터 방식으로 시작하는 것이 좋습니다.

  1. 기능으로 사용할 단어 집합을 제안 해주십시오.
  2. 각 문서를 가져와 각 기능 단어에 대한 개수의 벡터로 변환하십시오.
  3. 코사인 유사성으로 벡터를 묶습니다.
  4. 같은 클러스터에서 끝나는 문서는 같은 작성자가 작성하기 쉽습니다.

정상적인 문서 클러스터링과 다른 저자 식별을위한 클러스터링을 만드는 중요한 캐치가 있습니다. 일반적인 문서 클러스터링에서는 "the", "be", "be"와 같은 고 빈도 단어를 " 그 "등, 그리고 단지"내용 단어 "에 집중. 그러나 저자 식별에있어, 불용어는 개인의 글을 독특하게 만드는 것입니다. 따라서 벡터는 저자가이 기능 단어를 서면으로 사용하는 방법에 따라 실제로 클러스터되어야합니다.

다음 단계로 bigrams라는 단어와 같은 더 나은 기능을 사용 해보십시오. 저자의 글쓰기 스타일의 고유 한면에 대해 좀 더 나은 통찰력을 제공 할 것이기 때문입니다.

사람들이 시도한 영역과 기법에 대한 광범위한 정보를 보려면 Google scholar의 의견을 확인하십시오. 사람들이 시도한 것과 성공한 것을 잘 이해할 수 있도록 설문 조사 기사 나 현장의 개요를 보여주는 기타 논문을 찾아야합니다.

+0

빠른 답장을 보내 주셔서 감사합니다. 이제 제안 된 사항을 시도하고 같은 문제에 관해서 되돌릴 수 있습니다. 다시 한 번 감사드립니다. – Target

1

신경망을 사용할 수 있습니다. 예를 들어 here이라는 기사가 있는데 셰익스피어, 플레처 및 말로우의 저작자를 식별하려고합니다. 또한 Python 스크립트 (및 C의 신경망 구현)도 포함되어 있습니다. 또한 데이터 파일을 작성하는 방법을 알려주는 데이터 파일도 있습니다.

하지만 앞에서 언급했듯이 문제는 지나치게 광범위합니다. 다행히도이 예가 시작될 수 있기 때문에 다시 돌아와서보다 구체적인 질문을 할 수 있습니다.

+0

approch을 주셔서 대단히 감사드립니다. 이제 그 일을 시도하고 구체적인 질문을하겠습니다. 팀과 나에게도 분명합니다. 다시 감사드립니다. – Target