2012-09-06 3 views
13

먼저 추천 않는 한 ... 나는 독일에서 왔어요 (학사 학위 논문) 특정 회사 및 브랜드에 대한 트윗의 정서를 분석해야합니다. 이 목적을 위해 필자는 자신의 프로그램을 스크립트로 작성해야하지만 수정 된 오픈 소스 코드를 사용해야합니다 (API가 없습니다 - 무슨 일이 일어나는지 이해해야합니다).목록 내 너무 완벽 영어에 대한 유감

아래에서 찾은 일부 NLP 응용 프로그램 목록을 찾을 수 있습니다. 내 질문은 지금 어느 것이고 어느 접근법을 권하고 싶습니까? 그리고 어느 것이 긴 밤에 코드를 조정할 필요가 없습니까?

예 : 내가 음악 플레이어> <에 대한 트위터를 화면에 쓴 다음 누군가는 다음과 같이 씁니다 : "끔찍한 날이지만 적어도 내 iPod은 나를 행복하게 만듭니다"또는 "더 이상 힘든 일이지만 적어도 내 iPod 그것을 보상해라 "

날씨가 아니라 아이팟에 초점을 맞춘다는 것을 이해할만큼 현명한 소프트웨어는 무엇입니까?

또한 어떤 소프트웨어가 확장 성/리소스 효율성이 있습니까 (몇 개의 트윗을 분석하고 수천 달러를 사용하고 싶지는 않습니다).

웨카 광산

기계 학습 및 데이터 - 데이터 마이닝을위한 기계 학습 알고리즘의 모음입니다. 가장 인기있는 텍스트 분류 체계 중 하나입니다. 여기에는 Naive Bayes 및 Support Vector Machines (SMO 아래에 나열된 SVM) [참고 : SVM-Light, LibSVM 및 SVMTorch 이외의 Java SVM 구현이 일반적으로 사용됩니다.]과 같은 다양한 알고리즘 구현이 포함되어 있습니다. 관련 프로젝트는 Kea (Keyphrase Extraction Algorithm)로, 텍스트 문서에서 keyphrase를 추출하는 알고리즘입니다.

Apache Lucene Mahout - Hadoop지도 축소 프레임 워크 위에 일반 기계 학습 알고리즘의 확장 성이 뛰어난 분산 구현을 생성하는 창업 보육 프로젝트입니다.

NLP 도구

LingPipe - 별칭-I의 Lingpipe 엔티티 추출, 연설 태그를 포함한 텍스트의 언어 처리를위한 자바 도구 모음 (POS입니다 (기술적으로 '오픈 소스, 아래 참조)), 클러스터링, 분류 등 ... 이것은 업계에서 가장 성숙되고 널리 사용되는 오픈 소스 NLP 툴킷 중 하나입니다. 속도, 안정성 및 확장 성으로 유명합니다. 가장 좋은 기능 중 하나는 시작하는 데 도움이되는 잘 작성된 튜토리얼 모음입니다. 그들은 경쟁 도구 인 학술 및 산업 도구 목록을 가지고 있습니다. 블로그를 확인하십시오. LingPipe는 소스 코드가 포함 된 로열티가없는 상용 라이센스로 배포되지만 기술적으로 '오픈 소스'는 아닙니다.

OpenNLP은 - 문장 감지, 토큰 화를 수행하는 자바 기반의 NLP 도구의 다양한 호스트 품사 태깅, 청크 및 분석, 명명 된 개체 탐지 및 Maxent 기계 학습을 이용하여 공동 참조 분석 꾸러미.

스탠포드 파서 및 품사 (POS) 태그 지정자 - Stanford NLP 그룹의 문장 파싱 및 품사 표기를위한 Java 패키지.그것은 확률 론적 인 자연어 파서 (매우 최적화 된 PCFG와 lexicalized 의존성 파서 모두)와 어휘 화 된 PCFG 파서의 구현을 가지고 있습니다. 그것은 완전한 GNU GPL 라이센스를 가지고 있습니다.

OpenFST - 가중치가 적용된 유한 상태 오토 마트를 조작하기위한 패키지입니다. 이들은 종종 probablistic 모델을 표현하는 데 사용됩니다. 음성 인식, OCR 오류 수정, 기계 번역 및 기타 다양한 작업을 위해 텍스트를 모델링하는 데 사용됩니다. 이 도서관은 Google Research 및 NYU의 기고자가 개발했습니다. 그것은 빠르고 확장 가능한 C++ 라이브러리입니다.

NTLK - 자연 언어 도구 키트는 분류, 클러스터링, 음성 태그 지정 및 구문 분석 등을 가르치고 연구하기위한 도구입니다. 여기에는 실험을위한 일련의 자습서와 데이터 세트가 들어 있습니다. 그것은 멜버른 대학교 (University of Melbourne)의 스티븐 버드 (Steven Bird)가 쓴 것입니다.

의견 파인더 - 주관 분석을 수행하고 의견, 정서, 추측 및 기타 개인 상태가 텍스트에있는 경우 자동으로 식별하는 시스템입니다. 특히, OpinionFinder는 주관적인 문장을 식별하고 주관성의 출처 (보유자) 및 긍정적이거나 부정적 정서를 나타내는 구에 포함 된 단어를 포함하여 주관적인 문장의 주관적인 측면을 표시하는 것을 목표로합니다.

Tawlk/osae - 소셜 텍스트에 대한 감정 분류를위한 python 라이브러리. 최종 목표는 "그냥 작동하는"간단한 라이브러리를 만드는 것입니다. 진입 장벽이 있어야하며 철저히 문서화되어야합니다. 우리는 negwords.txt 및 poswords.txt

GATE에 수집 된 트윗과 필터링 중지 단어를 사용하여 최고의 정확성을 acheived 한 - GATE 15 세 이상이며, 인간의 언어를 포함하는 연산 작업의 모든 종류의 활성 사용 중입니다. GATE는 모든 모양과 크기의 텍스트 분석에 탁월합니다. 대기업에서 소규모 신생 기업에 이르기까지 수백만 개의 연구 컨소시엄에서 학부 프로젝트에 이르기까지 Google 사용자 커뮤니티는 이러한 유형의 시스템 중 가장 크고 다양한 시스템으로 대륙 중 하나를 제외한 모든 지역에 분산되어 있습니다 1.

textir - 텍스트 및 정석 마이닝 용 도구 모음. 잠정적 인 주제 모델에서 효율적인 추정 및 차원 선택을 위해 스파 스 다항식 로지스틱 회귀 분석을위한 'mnlm'함수, 'pls', 간결한 부분 최소 자승 루틴 및 'topics'함수가 포함됩니다.

NLP Toolsuite - JULIE Lab은 시맨틱 검색, 정보 추출 및 텍스트 마이닝을위한 응용 프로그램을위한 포괄적 인 NLP 도구 모음을 제공합니다. 우리의 지속적으로 확장되는 도구 모음의 대부분은 기계 학습 방법을 기반으로하므로 도메인 및 언어에 독립적입니다. 보조 노트에

...

: 당신은 트위터 스트리밍 또는 가져 오기 API를 추천 하시겠습니까?) 당신의 도움에 대한

감사합니다 많이!;

나에게, 나는 파이썬과 자바의 팬이다

답변

3

내가 얼마나 도울 수 있는지 잘 모르겠지만, 전에 수동식 NLP로 작업했습니다. 몇 가지 문제가 떠오른다. 모든 제품이 언어에 무관심한 것은 아니다 (컴퓨터 언어가 아닌 인간 언어). 독일어 트윗을 분석 할 계획이라면 선택한 제품이 독일어를 처리 할 수 ​​있어야합니다. 내가 알기에는 분명하지만 잊기 쉽다.그렇다면 수축과 두문자어가 많이 남는 트위터라는 사실이 있습니다. 그리고 언어 구조는 글자 제한에 의해 제약받습니다. 즉, 문법이 예상되는 언어 구조와 항상 일치하지는 않습니다.

자신의 코드를 작성해야하는 경우 문장에서 명사를 가져 오는 것이 다소 간단해질 수 있습니다. 적절한 명사는 초기 대문자를 가지며 명사구의 예는 그러한 단어들 ("포함"을 포함 할 수도 있음)의 문자열입니다. "a/an/my/his/her/the/this/these/those"가 앞에 붙이는 단어는 형용사 또는 명사가 될 것입니다. 불행히도 그 일은 점점 어려워집니다.

복수형 식별에 도움이되는 규칙이 있지만 예외도 많이 있습니다. 나는 여기서 영어를 말하고 있습니다. 아주 가난한 저의 독일어는 제가 두려워하는 문법을 이해하는 데 도움이되지 않습니다.

관련 문제