2014-02-24 6 views
0

이력서를 구문 분석하여 총알, 단락, URL을 포함하는 다른 제목과 콘텐츠를 가져오고 싶습니다. 나는 .doc/.docx 형식으로 이력서를 가지고있다. 지금까지의 연구 결과는자바에서 파서 다시 시작

입니다. 1. .doc 파일에서 xml 파일을 작성한 다음
2. JDOM을 사용하여 xml 파서를 작성하십시오.

다른 방법이나 더 좋은 방법이 있습니까? 이력서에 구조를 식별하는 데 도움이되는 알고리즘이 있습니까?

답변

-1

당신이 올바른 방향 인 것처럼 보입니다. 간단한 접근법은 다음과 같습니다. 정보를 확인하고 더 이동하면 +/- 단계를 기준으로 계산 된 공백을 기준으로 가로 지르고 결과를 식별하면됩니다.

근접성이있는 데이터를 얻는 데 도움이되는 NLP 방법론을 사용하고 있는지 확인한 다음 사용 환경에 따라 잡음을 제거 할 수 있습니다.

또는 간단히 말해서 일부는 이미 구축됩니다. RChilli CV Parsing 또는 hireability 또는 sovren과 같은 다른 사람들에게 귀하의 필요에 대해 이야기 해주십시오. 난 당신이 몇 가지 정보를 -K

+1

저는 Java에서 Word 문서를 지원하는 Apache POI로 작업 중입니다. 그것으로 작업하기가 더 쉽습니다. – akritaag

+0

그래서 아파치 도구를 사용하고 싶습니다 ... 이것은 완벽합니다. 그러나 아파치 opennlp와 같은 많은 플러그인을 가져와야합니다. 그들을 사용하면 데이터를 가져 오는 것을 볼 수 있습니다. –

+0

opennpl의 기능을 구현하려고합니다. 감사합니다. 당신 머리에 대 한 – akritaag

0

재미있는

감사를 얻을 확신 - 나는 우리가 내 신원을 확인하는 SOLR를 사용하는 솔루션에서 일했다.

또 다른 방법은 Apache Solr/index 문서를 사용하고면 처리 된 검색을 가져올 수 있습니다.

유일한 방법은 라이브러리를 작성하는 방법입니다. 아파치 POI보다 훨씬 짧고 간단합니다

도움이 필요하면 알려주세요.

+0

나는 solr에 대해 읽고 있지만 꽤 작동 방법을 이해하지 않는다. 나는 start.jar를 실행하고 post.jar를 사용하여 csv 파일을 인덱싱하지만 나는 여기로부터 멀어져있다. 또한 내 기존 Java 프로젝트로 가져올 수있는 방법을 설명 할 수 있습니까? 감사 – akritaag