2010-01-14 3 views
7

내가 읽을 수있는 연구 논문/책이있어 문제의 해결 방법을 알 수 있으며, 어떤 종류의 기능 선택 알고리즘이 가장 잘 작동할까요?기능 선택 알고리즘을 선택하는 방법? - advice

트위터 메시지를 단순히 pos/neg로 식별하려고합니다. 나는 주파수 기반 기능 선택 (NLTK 서적으로 시작)을 가지고 시작했지만 비슷한 문제에 대해 여러 개인이 다른 알고리즘을 선택했다는 것을 곧 알게되었습니다.

주파수 기반의 상호 정보, 정보 획득 및 다양한 알고리즘을 시도 할 수 있지만 목록은 끝이없는 것처럼 보입니다. 효과적인 시행 방법과 시행 착오가 있는지 궁금합니다.

답변

4

어떤 조언이 나는 NLP 과정 마지막 학기를했고, 그것은 감정 분석은 아무도 정말로 (아직) 잘하는 방법을 알고 뭔가 꽤 분명했다. 물론 자율 학습을 통해이 일을하는 것이 훨씬 더 어렵습니다.

이 문제에 관해서는 많은 연구가 진행 중입니다. 그 중 일부는 상업적이며 공개적으로 공개되지 않습니다. 나는 당신을 어떤 연구 논문으로도 안내 할 수는 없지만 과정에 사용한 책은 this (google books preview)이었다. 즉,이 책은 많은 내용을 다루고 있으며이 문제에 대한 해결책을 찾는 가장 빠른 방법이 아닐 수도 있습니다.

내가 지적 할 수있는 유일한 다른 점은 "감정 분석"또는 "의견 마이닝"을 위해 scholar.google.com에서 인터넷 검색을 시도하는 것입니다.

NLTK movie_reviews 코퍼스를 살펴보십시오. 리뷰는 이미 분류되어 있으며 분류자를 교육하는 데 도움이 될 수 있습니다. 트위터에서 찾은 언어가 아마도 그 언어와 매우 다르긴하지만.

마지막으로, 여기에 성공 (또는 실패)을 게시하십시오. 이 문제는 나중에 어느 시점에서 나올 것입니다.

+0

책에 코드가 포함되어 있거나 이론이 무겁습니까? –

+0

이것은 무거운 이론이며, 주로 구현 방법이 아닌 수학적 배경에 중점을 둡니다. 나는 Google 도서에서 그것을 발견하고 거기에 찾아 볼 수 있습니다. 내 원래 게시물에 링크를 추가하겠습니다. –

1

기계 학습을 다룰 때 불행히도 아무것도 할 수 없습니다. 일반적으로 "No Free Lunch" 정리라고합니다. 기본적으로 많은 알고리즘이 문제에 대해 작동하며, 일부 알고리즘은 일부 문제에 대해서는 더 나아지고 다른 알고리즘에서는 더 나빠집니다. 전반적으로, 그들은 모두 같은 것을 수행합니다. 동일한 기능 세트로 인해 한 알고리즘이 더 잘 수행되고 다른 알고리즘은 주어진 데이터 세트에 대해 성능이 저하 될 수 있습니다. 다른 데이터 세트의 경우 상황이 완전히 뒤바뀔 수 있습니다.

보통 내가하는 일은 비슷한 작업에 대해 다른 사람들을 위해 일한 몇 가지 기능 선택 알고리즘을 선택한 다음 그 중에서 시작하는 것입니다. 내가 좋아하는 분류 기준을 사용하여 얻는 성과가 받아 들여질 수 있다면, 또 다른 절반의 비율을 차지하는 것은 아마도 내 시간의 가치가 없다. 그러나 받아 들일 수 없다면, 내 접근법을 재평가하거나 더 많은 기능 선택 방법을 찾아야 할 때입니다.

6

마지막 질문에 내가 추천 한 책을 사용해 보셨습니까? 자유롭게 온라인으로 이용할 수 있으며 전적으로 귀하가 다루는 작업에 대해 : Pang and Lee의 Sentiment Analysis and Opinion Mining. 4 장 ("추출 및 분류")은 필요한 것입니다!

+1

나는 그것을 무료로 사용할 수 있다는 것을 몰랐다. 나는 단지 질문을보고 pdf를 발견했다. 아마 재미있을 것이라고 생각한다. 나는 아마존에서 99 달러짜리 가격표를 보았을 때 약간 낙담했다.나는 그것을 지금 읽고있다 .. –

+1

대단히 환영합니다. Btw, 이제 15 점 이상의 평판을 얻었으므로 upvotes도 할 수 있습니다. hehe ... ;-) – ferdystschenko