Java 또는 PHP (Codeigniter)로 코드를 작성하여 hbis resume 또는 cv를 사이트에 업로드 한 사용자의 전자 메일 및 전화 번호와 같은 정보를 추출하고 싶습니다. 기본적으로 나는 cv 파서를 만들고 싶다.cv 파일 구문 분석
도움이 필요합니다.
감사
편집 문서에있을 것이다 이력서 형식입니다.
Java 또는 PHP (Codeigniter)로 코드를 작성하여 hbis resume 또는 cv를 사이트에 업로드 한 사용자의 전자 메일 및 전화 번호와 같은 정보를 추출하고 싶습니다. 기본적으로 나는 cv 파서를 만들고 싶다.cv 파일 구문 분석
도움이 필요합니다.
감사
편집 문서에있을 것이다 이력서 형식입니다.
표준 CV 형식이 없기 때문에 구문 분석은 불가능합니다.
대신 업로드 할 때 HTML 양식의 연락처 정보를 수집하는 것이 좋습니다.
정규식 세트를 사용하여 빌드하는 것이 좋습니다. 전화 번호를 추출하고 이메일을 보내려면 파서가 매우 간단합니다. 전자 메일은 거의 100 % 작동하며 전화 번호는 98 %입니다.
다른 정보를 추출하려면 CV 표준이 없기 때문에 더 복잡합니다. 정보는 다른 방법으로 포맷 될 수 있습니다. 어쨌든 행운을 빌어 요!
beautifulsoup는 어떻게 cv를 구문 분석하는 데 도움이됩니까? 콘텐츠 추출을 위해 웹 페이지를 파싱/스크래핑하기위한'BeautifulSoup'가 아닌가요? 질문을주의 깊게 읽고 대답하십시오. –
... 파이썬을 사용하고, 쉬운 당신의 자신의 스크레이퍼를 작성하고이 아름다운 수프, urllib2가 같은 모듈로 귀하의 경우에는 정말 신속하게 수행 할 수 있어야 Ditto AlexR. 찾으려는 항목이 모두 전자 메일 주소와 전화 번호 인 경우 적절한 형식의 문자열을 검색 할 수 있습니다. 몇 가지 간단한 정규 표현식을 사용하면이를 상당히 안정적으로 수행 할 수 있습니다. 그것도 100 %가 아닐 것입니다. 누군가 포함 된 경우 "Java @ Technocorp, 미국 시민을 배웠습니다." "[email protected]"라는 이메일 주소로 쉽게 속아 넘어갈 수 있습니다. 좋아, 그것은 긴장된 예제지만, 자연어 구문 분석을 쏘는 일종의 것입니다.
이상을 원하면 쉽게 대답 할 수 없습니다. 키워드를 검색 할 수 있습니다. 예를 들어, 그가 학교에 간 곳을 찾아 "대학"또는 "대학"이라는 단어를 찾을 수 있습니다. 그러나 그때조차도 누군가가 "Foobar College 졸업"또는 "College : Foobar"또는 "Foobar의 BA"또는 다른 많은 가능한 형식을 넣을 수 있습니다.
@ 코빈은 표준 CV 형식이 없기 때문에 말했다. 100 % 정확도로 구문 분석하는 것은 매우 어려울 것입니다.
그래도 Apache Tika - A Content Analysis Toolkit을 시도하면 doc/docx 형식으로 다시 시작할 수 있습니다. 아파치는 또한 pdf, txt, xml, odf 등을 포함한 많은 문서 형식을 지원합니다. Apache Tika을 사용하여 cv에서 전체 내용을 가져온 후에 정규 표현식의 도움으로 몇 줄의 코드로 이력서에서 이메일과 전화 번호를 추출 할 수 있습니다. .
붙어 있다면 알려주세요.
희망이 도움이됩니다.
참고 (이력서 요약 작성 작업 중).
"업로드 중"방법? 어떤 형식으로? 여러 전화 번호를 지정하면 어떻게 될까요?이것은 잠재적으로 엄청난 사업입니다. 그 정보를 옵션이 아닌 수동으로 추출하고 있습니까? –
가능한 [Best Third Party Resume Parser Tool] (http://stackoverflow.com/questions/451943/best-3rd-party-resume-parser-tool) – dogbane