2016-07-28 4 views
-2

메일 ID, 전화 번호 - 정규 표현식을 사용하여 추출했습니다. 핵심 NLP 서버를 사용하여 이름을 추출했습니다. 집합을 제공하고 단어를 비교하여 기술을 추출했습니다. 하지만 파이썬을 사용하여 수년간의 경험을 추출하는 방법을 알지 못했습니다 - 누구나 그것에 관해 아이디어를 주시겠습니까? 예 : 경험의python을 사용하여 이력서를 경험할 수있는 방법은 무엇입니까?

이년이 같이 경험

2,010에서 2,014 사이

2 년 당신은 몇 걸릴 수 있습니다

+0

많은 가능성을 의미하는 마침내 예상되는 패턴 뒤에 논리를 찾아야합니다. 예를 들어 주위의 문자열을 사용하거나 원하는 패턴의 모양이 제한적이라면 정규식과 같은 여러 가지 방법으로 구조를 사용할 수 있습니다. – Kasramvd

+0

@ Kasramvd 3 가지 방법은 경험을 나열하는 대체 방법이지만 "많은"방법이있을 수는 없지만 대부분 실제로 처음에는 두 가지 패턴이 전혀 없습니다. –

+0

단 하나의 방법은 정규 표현식을 사용하는 것입니다. 또는 우리는 다른 논리를 사용할 수 있습니다. –

답변

1

많은 가능성이있다 접근법의 만약 가능성이 많다면, 이것을 기계 학습 문제로 취급하고 접근법 1을 사용할 수 있습니다. 그렇지 않으면 1, 가능성이 제한적일 경우 (예 : 약 5), 두 번째 접근법을 사용할 수 있습니다.

접근 1 :

은 기계 학습 문제를 생각해 보자. 경험 년이 포함되어 있는지에 따라 텍스트의 각 문장을 0 또는 1로 분류하십시오. 이는 일부 데이터를 수동으로 교육하여 수행 할 수 있습니다. 각 교육 예제에 대해 레이블을 지정합니다.

작업 경력 : 3 년

이년 (라벨 0) 동안 열심히

공부 (라벨 1) (라벨 0) 경험

2 년 (라벨 예를 들어 1)

경력 : 2,010에서 2,014 사이 (라벨 1) 많은 예제가 있으면

, 당신은 skicit-learn 사용하거나 유사한 PA 모형을 훈련시키는 ckage.

접근법 2 : 년간

1 검색합니다. 정확한 단어 (year 또는 years)이거나 4 자리 숫자 (예 : 2014) 일 수 있습니다.

2- 1이 통과하면 가까운 거리에서 경험 (또는 비슷한 단어)을 검색하십시오.

12이 모두 통과하면 오랜 경험을 할 수 있습니다. 그런 다음 원하는 것에 따라 더 추출 할 수 있습니다.

+0

예, 이력서 *는 날짜 범위에서 단어 경험을 표시 할 수 있지만 특정 형식의 입력 데이터가 필요하지 않은 방법을 묻는 질문이라고 생각합니다. 어쨌든 특정 직업에서 날짜 범위를 나열하는 것은 분명히 수년 간의 경험을 보여주는 유효한 방법입니다. –

+0

글쎄, 내 대답에서 시연했듯이, 모든 가능성의 패턴이 있습니다. 어쨌든, 다른 접근 방식은 기계 학습을 사용하는 것입니다. – Learner

+0

기계 학습을 처음 접했을 때 접근법 1에 대한 설명을 제공해 주시겠습니까 –

관련 문제