Hadoop에서 실행할 수있는 다국어 임시 표현식 태그 지정기가 있습니까?

많은 텍스트에서 날짜를 추출해야합니다. 언어가 많을수록 좋습니다. 영어, 스페인어, 포르투갈어. 그런 도구가 존재합니까? Java 및 Mavenized?Hadoop에서 실행할 수있는 다국어 임시 표현식 태그 지정기가 있습니까?

http://code.google.com/p/heideltime/ 많은 언어와 인상적인 온라인 데모하지만
http://nlp.stanford.edu/software/sutime.shtml 잘 문서화
http://natty.joestelmach.com/ 영어
https://github.com/samtingleff/jchronic 영어
http://code.google.com/p/nltk/source/browse/trunk/nltk_contrib/nltk_contrib/timex.py 영어

또 어디 내가해야 할 것은?

출처

2013-06-21 dranxo

기본적으로 Hadoop에서 실행될 수있는 UIMA에는 하이델 랜드가 배포 가능합니다. "이상한 외부 의존성"을 정의하는 방법을 모른다. –

내가 읽은 것부터, 나는 어딘가에 http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/가 있어야한다. 나는 UIMA 버전을 시험해 볼 것인데, UIMA가 무엇인지 잘 모르겠다. – dranxo

UIMA 사용법에 대한 조언이 있으십니까? 나는 많은 것을 읽었으며 여전히 그것이 무엇인지, 왜 그것이 필요한지 알아 내지 못한다 : http://stackoverflow.com/questions/17283557/do-i-need-to-rewrite-my-entire-java-project -if-i-want-to-use-a-uima-depen – dranxo

Apache Tika이 유용 할 수 있습니다.

출처

2013-06-21 18:51:10 Tariq

일시적인 태깅을 수행합니까? – dranxo

나는 비슷한 주제를 연구 해왔다. 거기에 많은 문서가 없지만, 내가 발견 한 것을 공유 할 것입니다.

UIMA는 본질적으로 분석 파이프 라인에서 프로그램 ("주석 자")을 함께 묶는 프레임 워크입니다. 구조화되지 않은 데이터가 파이프 라인을 통해 흐르면 주석자는 유용한 비트를 추출하여 CAS (Common Analysis Structure)라는 데이터 객체에 씁니다.

UIMA 파이프 라인은 Java로 구현되어 있으므로 JVM에서 실행됩니다. 다른 언어로 작성된 도구 (예 : Perl은 적절한 래퍼를 사용하여 파이프 라인으로 가져올 수 있습니다.

파이프 라인은 MapReduce 맵 작업에서 실행할 수 있습니다. digitalPebble Behemoth 프로젝트는이를 처리 할 수있는 편리한 방법을 제공합니다.

출처

2013-08-26 19:38:07 user1442303

Hadoop에서 실행할 수있는 다국어 임시 표현식 태그 지정기가 있습니까?

답변

관련 문제