특정 해시 태그가 포함 된 트윗 내에서 인기있는 키워드 또는 어구의 간단한 목록을 만들고 싶습니다.Ruby에서 간단한 키워드/핵심 구문 분석
예를 들어, '#justinbieber'해시 태그가있는 모든 트윗에 대해 'tw와 같은 일반 무관계를 무시하고 가장 많이 사용되는 상위 10 개 단어 및/또는 문구 목록을 얻고 싶습니다. ','the '등이 될 수 있습니다.
텍스트 분석을 수행하는 데 사용할 수있는 루비 도구는 무엇입니까? 물론, 분석 부분은 트위터에만 한정 될 필요는 없습니다.
주기적으로 주어진 해시 태그로 트윗을 요청하고 저장 한 다음 주어진 시간 내에 트윗에 분석을 적용 할 것입니다.
작업은 Heroku의 Rails 또는 Sinatra 앱에서 수행되지만 분석은 일종의 레이크 작업 또는 예약 된 작업으로 수행됩니다. 나는 아직 트윗을 어떻게 저장할 지 결정하지 않았다.
감사합니다, 마이클. OpenNLP에 대해 살펴 보겠습니다. 나는 개인적인 단어뿐만 아니라 문구가 필요하므로 간단한 접근법이 그렇게 간단하지 않을 수도 있습니다 ... – froots101