2013-06-21 3 views
0

많은 텍스트에서 날짜를 추출해야합니다. 언어가 많을수록 좋습니다. 영어, 스페인어, 포르투갈어. 그런 도구가 존재합니까? Java 및 Mavenized?Hadoop에서 실행할 수있는 다국어 임시 표현식 태그 지정기가 있습니까?

또 어디 내가해야 할 것은?

+0

기본적으로 Hadoop에서 실행될 수있는 UIMA에는 하이델 랜드가 배포 가능합니다. "이상한 외부 의존성"을 정의하는 방법을 모른다. –

+0

내가 읽은 것부터, 나는 어딘가에 http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/가 있어야한다. 나는 UIMA 버전을 시험해 볼 것인데, UIMA가 무엇인지 잘 모르겠다. – dranxo

+0

UIMA 사용법에 대한 조언이 있으십니까? 나는 많은 것을 읽었으며 여전히 그것이 무엇인지, 왜 그것이 필요한지 알아 내지 못한다 : http://stackoverflow.com/questions/17283557/do-i-need-to-rewrite-my-entire-java-project -if-i-want-to-use-a-uima-depen – dranxo

답변

0

나는 비슷한 주제를 연구 해왔다. 거기에 많은 문서가 없지만, 내가 발견 한 것을 공유 할 것입니다.

UIMA는 본질적으로 분석 파이프 라인에서 프로그램 ("주석 자")을 함께 묶는 프레임 워크입니다. 구조화되지 않은 데이터가 파이프 라인을 통해 흐르면 주석자는 유용한 비트를 추출하여 CAS (Common Analysis Structure)라는 데이터 객체에 씁니다.

UIMA 파이프 라인은 Java로 구현되어 있으므로 JVM에서 실행됩니다. 다른 언어로 작성된 도구 (예 : Perl은 적절한 래퍼를 사용하여 파이프 라인으로 가져올 수 있습니다.

파이프 라인은 MapReduce 맵 작업에서 실행할 수 있습니다. digitalPebble Behemoth 프로젝트는이를 처리 할 수있는 편리한 방법을 제공합니다.

관련 문제