1

내 친구는 고객이 이메일을 사용하여 서비스를 주문하는 중소기업입니다. 그는 하루에 몇 통의 이메일을 받았으며 그것을 통해 분류하는 것이 번거로워졌습니다.이메일에서 관련 정보를 추출하는 가장 좋은 방법은 무엇입니까?

고객이 요청할 수있는 작업은 약 10 가지이며 각각에 대해 하나 또는 두 단어로 지정됩니다. 전자 메일에있는 다른 정보는 서비스가 배달 될 장소, 시간 및 관련 사람들의 이름입니다. 전자 메일에는 또한 표준 형식의 긴 번호 인 ID가 들어 있습니다.

전자 메일은 매우 체계적이지 않지만 위의 주요 정보가 모두 포함되어 있습니다. 내 질문은 : 이러한 전자 메일을 통해 스윕하고 핵심 정보 (예 : 서비스 유형, 장소, 사람 이름, ID 등)를 추출하는 가장 좋은 방법은 무엇입니까?

전처리에 대해 생각한 다음 AlchemyAPI를 통과시킨 다음 각 기능 (핵심 정보)에 대해 신경 회로망을 사용하여 연금술 출력을 테스트합니다. 이것은 피드백 루프를 항상 할 수 있으므로 학습을 감독 할 수 있습니다. 일단 정보가 입력되면 유효성을 검사 할 사람을 가질 수 있습니다.

아이디어가 있으십니까? 감사합니다

+0

친구가 Gmail을 사용하고 있습니까? –

답변

1

일부 부품 (ID, 작업, 시간)은 정규식과 사전 일치로 캡처 할 수 있습니다. GATE's JAPE 도구를 살펴보십시오.

사전을 조합 한 다음 "작업"에 대한 조회를 사용하는 것이 매우 쉽고 날짜/시간에 사용할 수있는 jape 규칙을 다시 사용하고 ID에 대한 새 규칙을 작성할 수도 있습니다 (또한 간단한 정규식 괜찮을 수 있습니다.)

위치와 사람의 이름을 일치 시키려면 이름과 장소가 잘 정의 된 문장에 사용되는 경우 openCalais와 alchemyAPI를 사용하면 좋은 결과를 얻을 수 있으며 일부 표 형식이나 이상한 형식으로 더 많은 실수를 범할 수 있습니다. 또한 장소와 사람을 올바르게 파악했는지 직접 확인할 수 없으므로 주문을 직접 처리하는 데 의존하지 마십시오.

메일의 구조 또는 예상되는 이름과 장소에 대한 자세한 정보가 있으면 (예 : 가능한 모든 이름을 가진 "clients"테이블이 있음) 사용자가 직접 태그 지정을 원할 것입니다. 그렇지 않으면 openCalais 또는 alchemyAPI + 일부 정규식.

P. 나는 모든 우편물이 영어로되어 있다고 가정한다.

관련 문제