많은 텍스트에서 날짜를 추출해야합니다. 언어가 많을수록 좋습니다. 영어, 스페인어, 포르투갈어. 그런 도구가 존재합니까? Java 및 Mavenized?Hadoop에서 실행할 수있는 다국어 임시 표현식 태그 지정기가 있습니까?
- http://code.google.com/p/heideltime/ 많은 언어와 인상적인 온라인 데모하지만
- http://nlp.stanford.edu/software/sutime.shtml 잘 문서화 불가능 내가 클러스터 배포 열심히 할 것입니다 의심 몇 가지 이상한 외부 종속성을/필요하지만, 영어 : 여기에 내가 찾은거야. 쉬운 훈련?
- http://natty.joestelmach.com/ 영어
- https://github.com/samtingleff/jchronic 영어
- http://code.google.com/p/nltk/source/browse/trunk/nltk_contrib/nltk_contrib/timex.py 영어
또 어디 내가해야 할 것은?
기본적으로 Hadoop에서 실행될 수있는 UIMA에는 하이델 랜드가 배포 가능합니다. "이상한 외부 의존성"을 정의하는 방법을 모른다. –
내가 읽은 것부터, 나는 어딘가에 http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/가 있어야한다. 나는 UIMA 버전을 시험해 볼 것인데, UIMA가 무엇인지 잘 모르겠다. – dranxo
UIMA 사용법에 대한 조언이 있으십니까? 나는 많은 것을 읽었으며 여전히 그것이 무엇인지, 왜 그것이 필요한지 알아 내지 못한다 : http://stackoverflow.com/questions/17283557/do-i-need-to-rewrite-my-entire-java-project -if-i-want-to-use-a-uima-depen – dranxo