TweetNLP은 트위터 및 품사 용 tagger를 제공하며 정말 멋집니다. 자, 이제 제가 한 걸음 더 나아가 두문자어를 추출 할 수 있을지 궁금합니다. 예를 들어, 트윗 "ikr"을 얻었을 때, 나는 그것을보고 "알아, 맞지?"라고 말할 수있을 것이다. 내 사전을 쓸 수는 있겠지만 이미 있어야 할 것 같습니다.TweetNLP의 머리 글자로 전체 내용보기
답변
그래서 내가하고 결국 무엇 GATE 트위터 모델 StanfordNLP을 사용하는 것입니다하지만 당신은 당신이이 웹 사이트에서 필요한 정보를 긁어 수 있습니다.
샘플 트윗 : 그는 게이트-EN-twitter.model없이 FB의 lololol에
결과 유를 추가 할 수 있도록 그가 전나무 요 성을 요구
IKR의 SMH
word: ikr :: pos: NN :: ne:O word: smh :: pos: NN :: ne:O word: he :: pos: PRP :: ne:O word: asked :: pos: VBD :: ne:O word: fir :: pos: NNP :: ne:O word: yo :: pos: NNP :: ne:O word: last :: pos: JJ :: ne:O word: name :: pos: NN :: ne:O word: so :: pos: IN :: ne:O word: he :: pos: PRP :: ne:O word: can :: pos: MD :: ne:O word: add :: pos: VB :: ne:O word: u :: pos: NN :: ne:O word: on :: pos: IN :: ne:O word: fb :: pos: NN :: ne:O word: lololol :: pos: NN :: ne:O
gate-EN-twitter.model 결과
word: ikr :: pos: UH :: ne:O word: smh :: pos: UH :: ne:O word: he :: pos: PRP :: ne:O word: asked :: pos: VBD :: ne:O word: fir :: pos: IN :: ne:O word: yo :: pos: PRP$ :: ne:O word: last :: pos: JJ :: ne:O word: name :: pos: NN :: ne:O word: so :: pos: IN :: ne:O word: he :: pos: PRP :: ne:O word: can :: pos: MD :: ne:O word: add :: pos: VB :: ne:O word: u :: pos: PRP :: ne:O word: on :: pos: IN :: ne:O word: fb :: pos: NNP :: ne:O word: lololol :: pos: UH :: ne:O
이제 UH의 태그를보고 속어를 식별하고 내 사용자 지정 사전에 어긋나게 할 수 있습니다.
왜 아직 거기 밖으로 사용할 수 없지만, 지금 당장 내 문제를 해결하지 않습니다 당황.
나는 그런 자료를 모르고있다. http://www.allacronyms.com/twitter/topic http://www.abbreviations.com/acronyms/TWITTER
감사 다니엘을 실행에 추가합니다. 그것이 내 계획을 뒷받침하는 것입니다. 그런 용어의 사전을 가지고있을 것이고, TweetNLP가 방금 구문을 분석했다는 것을 큰 확신을 가지고 보여 주면 나는 사전을 찾아 볼 것입니다 : LOL 그리고 큰 소리로 웃어 대는 대신에 그것을 대체하십시오. 찾지 못하면, 기록하고, 수동으로 해독 한 후 사전에 추가하십시오. 어쩌면이 기능을 현재 사용할 수없는 경우 아파치 OpenNLP에서 플러그인을 제공 할 수 있습니다. – krinker
자신의 웹 사이트에서 StanfordNLP를 다운로드하거나 Maven 종속성으로 사용하십시오. 나는 3.1.1 버전
<dependency>
<groupId>edu.stanford.nlp</groupId>
<artifactId>stanford-corenlp</artifactId>
<version>3.3.1</version>
</dependency>
<dependency>
<groupId>edu.stanford.nlp</groupId>
<artifactId>stanford-corenlp</artifactId>
<version>3.3.1</version>
<classifier>models</classifier>
</dependency>
<dependency>
<groupId>edu.stanford.nlp</groupId>
<artifactId>stanford-parser</artifactId>
<version>3.3.1</version>
<classifier>models</classifier>
</dependency>
다운로드 Gate tweeter model을 사용했다.
당신의 재산이
Properties props = new Properties();
props.put("annotators", "tokenize, ssplit, pos, lemma, ner, parse, dcoref");
props.put("pos.model", "gate-EN-twitter.model");
props.put("dcoref.score", true);
StanfordCoreNLP pipeline = new StanfordCoreNLP(props);
파일 및 POS
- 1. wxpython HtmlWindow : 전체 내용보기?
- 2. uidialog 전체 내용보기
- 3. Perl이 응답의 전체 내용보기
- 4. div의 전체 내용보기
- 5. Python - lxml/xpath의 전체 내용보기
- 6. MVC Ajax 양식의 전체 내용보기.
- 7. Skype4COM 최근 대화의 전체 내용보기
- 8. UIAutomation을 사용하여 Datagrid의 전체 내용보기
- 9. Lucene에서 색인을 생성하는 동안 머리 글자로 점을 유지하십시오.
- 10. 2 글자로 된 전체 국가 이름 얻기
- 11. Eclipse의 그래픽 레이아웃에서 ScrollView의 전체 내용보기
- 12. 전체 글 머리 기호가있는 OpenXMl 글 머리 기호 목록.?
- 13. 3 글자로 mysql 전체 텍스트 검색이 작동하지 않습니다.
- 14. NSMutableDictionary의 내용보기
- 15. 스택의 내용보기
- 16. 내용보기 - Python
- 17. GridView의 내용보기
- 18. 링크 내용보기
- 19. 첫 글자로 SQL 쿼리를 주문하십시오.
- 20. 트위터 API로 140 자 이상의 직접 메시지 전체 내용보기
- 21. 많은 레이블과 텍스트를 포함하는 PDF 만들기 PDF의보기 전체 내용보기
- 22. 편지 쓰기 글자로 글자
- 23. 글자로 된 ParseInt
- 24. 첫 번째 글자로 그룹화
- 25. 문자열을 같은 글자로 분할하십시오
- 26. 글자로 된 접두어 필드
- 27. R에서 단어의 문자열을 머리 글자로 변환하고 다른 행의 데이터와 연결할 수 있습니까?
- 28. CURL이 PHP 스크립트에서 보내는 내용보기
- 29. git 재설정에서 복구 - 머리 머리
- 30. Agda의 헤드 (머리. 초기화) = 머리
완전한 대답은 아래를 참조하십시오. – krinker