2011-01-18 7 views
0

Java 또는 PHP (Codeigniter)로 코드를 작성하여 hbis resume 또는 cv를 사이트에 업로드 한 사용자의 전자 메일 및 전화 번호와 같은 정보를 추출하고 싶습니다. 기본적으로 나는 cv 파서를 만들고 싶다.cv 파일 구문 분석

도움이 필요합니다.

감사

편집 문서에있을 것이다 이력서 형식입니다.

+0

"업로드 중"방법? 어떤 형식으로? 여러 전화 번호를 지정하면 어떻게 될까요?이것은 잠재적으로 엄청난 사업입니다. 그 정보를 옵션이 아닌 수동으로 추출하고 있습니까? –

+1

가능한 [Best Third Party Resume Parser Tool] (http://stackoverflow.com/questions/451943/best-3rd-party-resume-parser-tool) – dogbane

답변

5

표준 CV 형식이 없기 때문에 구문 분석은 불가능합니다.

대신 업로드 할 때 HTML 양식의 연락처 정보를 수집하는 것이 좋습니다.

1

정규식 세트를 사용하여 빌드하는 것이 좋습니다. 전화 번호를 추출하고 이메일을 보내려면 파서가 매우 간단합니다. 전자 메일은 거의 100 % 작동하며 전화 번호는 98 %입니다.

다른 정보를 추출하려면 CV 표준이 없기 때문에 더 복잡합니다. 정보는 다른 방법으로 포맷 될 수 있습니다. 어쨌든 행운을 빌어 요!

1
+0

beautifulsoup는 어떻게 cv를 구문 분석하는 데 도움이됩니까? 콘텐츠 추출을 위해 웹 페이지를 파싱/스크래핑하기위한'BeautifulSoup'가 아닌가요? 질문을주의 깊게 읽고 대답하십시오. –

0

... 파이썬을 사용하고, 쉬운 당신의 자신의 스크레이퍼를 작성하고이 아름다운 수프, urllib2가 같은 모듈로 귀하의 경우에는 정말 신속하게 수행 할 수 있어야 Ditto AlexR. 찾으려는 항목이 모두 전자 메일 주소와 전화 번호 인 경우 적절한 형식의 문자열을 검색 할 수 있습니다. 몇 가지 간단한 정규 표현식을 사용하면이를 상당히 안정적으로 수행 할 수 있습니다. 그것도 100 %가 아닐 것입니다. 누군가 포함 된 경우 "Java @ Technocorp, 미국 시민을 배웠습니다." "[email protected]"라는 이메일 주소로 쉽게 속아 넘어갈 수 있습니다. 좋아, 그것은 긴장된 예제지만, 자연어 구문 분석을 쏘는 일종의 것입니다.

이상을 원하면 쉽게 대답 할 수 없습니다. 키워드를 검색 할 수 있습니다. 예를 들어, 그가 학교에 간 곳을 찾아 "대학"또는 "대학"이라는 단어를 찾을 수 있습니다. 그러나 그때조차도 누군가가 "Foobar College 졸업"또는 "College : Foobar"또는 "Foobar의 BA"또는 다른 많은 가능한 형식을 넣을 수 있습니다.

0

@ 코빈은 표준 CV 형식이 없기 때문에 말했다. 100 % 정확도로 구문 분석하는 것은 매우 어려울 것입니다.

그래도 Apache Tika - A Content Analysis Toolkit을 시도하면 doc/docx 형식으로 다시 시작할 수 있습니다. 아파치는 또한 pdf, txt, xml, odf 등을 포함한 많은 문서 형식을 지원합니다. Apache Tika을 사용하여 cv에서 전체 내용을 가져온 후에 정규 표현식의 도움으로 몇 줄의 코드로 이력서에서 이메일과 전화 번호를 추출 할 수 있습니다. .

붙어 있다면 알려주세요.

희망이 도움이됩니다.

참고 (이력서 요약 작성 작업 중).