2016-06-22 1 views
0

문서에서 이름, 주소 및 dob와 같은 매우 구체적인 내용을 추출하고 싶습니다 (예를 들어, 이력서). 이러한 문서가 1000 개 있다고 가정하고 기계 학습 및 자연어 처리를 사용하여 문서를 자동화하려고합니다. 그리고 선호하는 python.
어떻게하면됩니까? 또는 어디서부터 시작해야합니까?NLP와 python을 사용하여 문서에서 이름이나 DOB와 같은 특정 콘텐츠를 추출하는 방법은 무엇입니까?

업데이트 : 저는 NER을 알고 있지만 엑셀이나 어떤 것으로로드 될 수있는 문서에서 매우 구체적인 정보를 추출하려고합니다.

예 : 프로젝트 보고서에서 주제, 팀 구성원 이름 및 프로젝트 보유 기간을 추출하고 싶습니다.

+1

나는 어떤 정보가 식별하기 쉬운 지 알아내는 것으로 시작하겠다. (예를 들어, 우편 번호는 5 자리 숫자가 그다지 희귀하지 않기 때문에 쉽게 추출 할 수있다.) 그리고 거기에서 정규 표현식을 사용하여 앞뒤로 검색한다. . 나는 이력서와 같은 반 구조화 된 문서에서 NLP가 아마도 과잉이라고 제안 할 것이다. –

+0

가능한 답변이 너무 많거나 좋은 대답은이 형식에 비해 너무 길어집니다. 응답 집합의 범위를 좁히거나 몇 단락에서 대답 할 수있는 문제를 찾아내는 세부 정보를 추가하십시오. –

+0

@MoralesBatovski : 이해합니다. 그러나 문제는 무엇을 찾고 출발점이 필요한지 잘 모르겠습니다. – catchingPatterns

답변

0

당신이 찾고있는 것이 NLP에서 NOM (Named Entity Recognition)으로 알려져있는 것입니다.

사실, 엔티티는 사람의 이름,의 campany 이름 등

당신은 자세한 내용은이 유래 answer 볼 수있는 장소의 이름이 될 수 있습니다.

+0

NER에 대해 알고 있지만 그게 내가 찾고있는 것이 아닙니다. NER는 사람, 조직 및 장소와 같은 일반적인 필드를 가져옵니다. 하지만 내 선택의 특정 정보를 추출하고 Excel로로드하려고합니다. – catchingPatterns

관련 문제