문서에서 이름, 주소 및 dob와 같은 매우 구체적인 내용을 추출하고 싶습니다 (예를 들어, 이력서). 이러한 문서가 1000 개 있다고 가정하고 기계 학습 및 자연어 처리를 사용하여 문서를 자동화하려고합니다. 그리고 선호하는 python.
어떻게하면됩니까? 또는 어디서부터 시작해야합니까?NLP와 python을 사용하여 문서에서 이름이나 DOB와 같은 특정 콘텐츠를 추출하는 방법은 무엇입니까?
업데이트 : 저는 NER을 알고 있지만 엑셀이나 어떤 것으로로드 될 수있는 문서에서 매우 구체적인 정보를 추출하려고합니다.
예 : 프로젝트 보고서에서 주제, 팀 구성원 이름 및 프로젝트 보유 기간을 추출하고 싶습니다.
나는 어떤 정보가 식별하기 쉬운 지 알아내는 것으로 시작하겠다. (예를 들어, 우편 번호는 5 자리 숫자가 그다지 희귀하지 않기 때문에 쉽게 추출 할 수있다.) 그리고 거기에서 정규 표현식을 사용하여 앞뒤로 검색한다. . 나는 이력서와 같은 반 구조화 된 문서에서 NLP가 아마도 과잉이라고 제안 할 것이다. –
가능한 답변이 너무 많거나 좋은 대답은이 형식에 비해 너무 길어집니다. 응답 집합의 범위를 좁히거나 몇 단락에서 대답 할 수있는 문제를 찾아내는 세부 정보를 추가하십시오. –
@MoralesBatovski : 이해합니다. 그러나 문제는 무엇을 찾고 출발점이 필요한지 잘 모르겠습니다. – catchingPatterns