2014-07-16 1 views
1

TweetNLP은 트위터 및 품사 용 tagger를 제공하며 정말 멋집니다. 자, 이제 제가 한 걸음 더 나아가 두문자어를 추출 할 수 있을지 궁금합니다. 예를 들어, 트윗 "ikr"을 얻었을 때, 나는 그것을보고 "알아, 맞지?"라고 말할 수있을 것이다. 내 사전을 쓸 수는 있겠지만 이미 있어야 할 것 같습니다.TweetNLP의 머리 글자로 전체 내용보기

답변

0

그래서 내가하고 결국 무엇 GATE 트위터 모델 StanfordNLP을 사용하는 것입니다하지만 당신은 당신이이 웹 사이트에서 필요한 정보를 긁어 수 있습니다.

샘플 트윗 : 그는 게이트-EN-twitter.model없이 FB의 lololol에

결과 유를 추가 할 수 있도록 그가 전나무 요 성을 요구

IKR의 SMH

word: ikr :: pos: NN :: ne:O 
word: smh :: pos: NN :: ne:O 
word: he :: pos: PRP :: ne:O 
word: asked :: pos: VBD :: ne:O 
word: fir :: pos: NNP :: ne:O 
word: yo :: pos: NNP :: ne:O 
word: last :: pos: JJ :: ne:O 
word: name :: pos: NN :: ne:O 
word: so :: pos: IN :: ne:O 
word: he :: pos: PRP :: ne:O 
word: can :: pos: MD :: ne:O 
word: add :: pos: VB :: ne:O 
word: u :: pos: NN :: ne:O 
word: on :: pos: IN :: ne:O 
word: fb :: pos: NN :: ne:O 
word: lololol :: pos: NN :: ne:O 

gate-EN-twitter.model 결과

word: ikr :: pos: UH :: ne:O 
word: smh :: pos: UH :: ne:O 
word: he :: pos: PRP :: ne:O 
word: asked :: pos: VBD :: ne:O 
word: fir :: pos: IN :: ne:O 
word: yo :: pos: PRP$ :: ne:O 
word: last :: pos: JJ :: ne:O 
word: name :: pos: NN :: ne:O 
word: so :: pos: IN :: ne:O 
word: he :: pos: PRP :: ne:O 
word: can :: pos: MD :: ne:O 
word: add :: pos: VB :: ne:O 
word: u :: pos: PRP :: ne:O 
word: on :: pos: IN :: ne:O 
word: fb :: pos: NNP :: ne:O 
word: lololol :: pos: UH :: ne:O 

이제 UH의 태그를보고 속어를 식별하고 내 사용자 지정 사전에 어긋나게 할 수 있습니다.

왜 아직 거기 밖으로 사용할 수 없지만, 지금 당장 내 문제를 해결하지 않습니다 당황.

+0

완전한 대답은 아래를 참조하십시오. – krinker

0
+0

감사 다니엘을 실행에 추가합니다. 그것이 내 계획을 뒷받침하는 것입니다. 그런 용어의 사전을 가지고있을 것이고, TweetNLP가 방금 구문을 분석했다는 것을 큰 확신을 가지고 보여 주면 나는 사전을 찾아 볼 것입니다 : LOL 그리고 큰 소리로 웃어 대는 대신에 그것을 대체하십시오. 찾지 못하면, 기록하고, 수동으로 해독 한 후 사전에 추가하십시오. 어쩌면이 기능을 현재 사용할 수없는 경우 아파치 OpenNLP에서 플러그인을 제공 할 수 있습니다. – krinker

1

자신의 웹 사이트에서 StanfordNLP를 다운로드하거나 Maven 종속성으로 사용하십시오. 나는 3.1.1 버전

<dependency> 
     <groupId>edu.stanford.nlp</groupId> 
     <artifactId>stanford-corenlp</artifactId> 
     <version>3.3.1</version> 
    </dependency> 
    <dependency> 
     <groupId>edu.stanford.nlp</groupId> 
     <artifactId>stanford-corenlp</artifactId> 
     <version>3.3.1</version> 
     <classifier>models</classifier> 
    </dependency> 
    <dependency> 
     <groupId>edu.stanford.nlp</groupId> 
     <artifactId>stanford-parser</artifactId> 
     <version>3.3.1</version> 
     <classifier>models</classifier> 
    </dependency> 

다운로드 Gate tweeter model을 사용했다.

당신의 재산이

Properties props = new Properties(); 
props.put("annotators", "tokenize, ssplit, pos, lemma, ner, parse, dcoref"); 
props.put("pos.model", "gate-EN-twitter.model"); 
props.put("dcoref.score", true); 
StanfordCoreNLP pipeline = new StanfordCoreNLP(props); 

파일 및 POS

관련 문제