2012-02-01 6 views
2

저는 대량 메일, 알림 및 뉴스 레터가 아닌 실제 인간이 보내는 이메일을 식별해야하는 프로젝트를 진행하고 있습니다. 그 일을하는 확실한 방법이 있습니까? 이메일 헤더에 도움이되는 정보가 있습니까? Gmail IMAP의 상단에서 작업 중이므로 이미 스팸이 아닌 이메일을 가지고 있습니다.사람이 보낸 전자 메일을 식별하는 방법은 무엇입니까?

이와 관련하여 도움이 되시길 바랍니다. 감사!

+1

관리 직원은 실제 사람입니다. – musefan

+1

Theyre는 인간에게서 그러나 멀리이다 http://images.wikia.com/southpark/images/4/42/Manateessouthpark.JPG – Curt

답변

4

일괄 메일과 맞춤 메일을 구분할 명확한 방법이 없습니다. 스팸 메일과 달리 대부분의 대량 메일은 요청/예상되므로 스팸 필터를 사용하기 위해 보낸 사람이 이상한 일을하지 않으므로 이러한 전자 메일은 종종 상당히 잘 어울립니다.

그러나 당신이 찾을 수있는 몇 가지 경향이 있습니다. 안정적으로 수행하려면 스팸 필터처럼 점수 시스템을 적용해야합니다.

또한 오 탐지 (false positive) 및 위음 방지 (false negative)의 상당 부분을 차지할 의무가 있음을 인정해야합니다. 개인 대응 적게 나타납니다 대량 메일에 공통적 인

어떤 것들은 :

  1. 가와 "참조"주소는 로컬받는 사람을 포함하지 않는 ""을 참조하십시오. 때로는 보낸 사람이 "[email protected]", "[email protected]"등 대신 "[email protected]"으로 보낼 것입니다. 이러한 경우 "To"에 하나의 주소 만 나타나기도합니다. "Cc"에는 아무 것도 표시되지 않습니다.
  2. "보낸 사람"주소는 "noreply @", "newsletter @", "do-not-reply @", "mailinglist @"또는 "support @"또는 " sales @ "(그러나 위양성이 발생할 수 있음을 기억하십시오)
  3. "List-Unsubscribe: "헤더가 있음
  4. 메시지에 가입 취소 링크가 있습니다. 패턴 일치를 실행하여 이메일의 마지막 몇 줄에있는 일반적인 문구를 찾습니다. 링크 또는 "탈퇴", "탈퇴"등과 같은 단어를 찾으십시오.
  5. 메일 링리스트는 풍부한 콘텐츠를 갖는 경향이 있습니다. CSS를 많이 사용하고 많은 이미지가 있는지 확인하십시오. 전체 메시지는 <table></table> 또는 <ul><li></li></ul> 구조 내에 있습니다. 즉 메일 클라이언트가 아닌 Dreamweaver와 같은 것들이 들어 있습니다.
  6. 메시지 상단의 헤더 또는 굵은 글씨체. 메시지의 첫 번째 비트가 뉴스 레터와 닮았다면, 아마도 뉴스 레터 일 것입니다.
  7. 동일한 (또는 거의 동일한) 웹 사이트에 많은 링크 또는 자주 연결됩니다. 뉴스 레터는 최대한 사용자를 회사 사이트로 유도하려고 시도합니다. 연결된 도메인이 보낸 사람 도메인과 일치하거나 유사한 경우이 점수를 더 높게 평가할 수 있습니다.
  8. 소셜 미디어에 대한 많은 참조. 여러 기사가 포함 된 뉴스 레터 인 경우 각 기사에 "Tweet this", "Like this"링크가있을 수 있습니다. 개인 사용자는 트위터, 페이스 북 등 (자신의 서명으로)에 대한 참조를 하나만 포함 할 수 있습니다.
  9. 알림 및 기타 자동 생성 메시지는 종종 동일한 기본 형식을 따릅니다. 기능이 있다면 이전 메시지와 비교하여 일종의 비교 또는 다른 비교를 실행하십시오. 강력한 일치는 자동화를 의미합니다.
  10. 인사말이나 일반적인 인사말이 없습니다. 그러나 개인 이메일은 종종 "친애하는 프레드"비트도 건너 뛸 수 있으므로이 방법만으로는 충분하지 않습니다. '친애하는 사용자'또는 '친애하는 고객'과 같은 것은 거의 확실합니다.
  11. "감사합니다, 이안"또는 "감사합니다, Doe John Doe"
  12. 발신자가 전에 득점했습니다. 기록을 유지하십시오. 보낸 사람이 높은 점수를 여러 번 발동하면 대량 우편물 발송이 거의 확실합니다.
+0

감사합니다! 이게 도움이되고, 그 라인에 내가 무엇을 찾고/생각했다. 나는 또한 '요청'헤더를 추적하여 고객의 흰색 목록을 만드는 것에 대해 생각하고있었습니다. 알려진 전자 메일의 코퍼스를 만든 다음 다른 전자 메일과 일치시켜야합니다. 이 모델에 결함이 있다고 생각합니까? –

+0

'요청'헤더가 무슨 뜻인지 잘 모르겠습니다. 어떤 방법으로도 발생할 수있는 주요 문제는 올바른 균형을 유지하는 데 소요되는 시간이므로 너무 많은 잘못된 결과를 얻지는 않습니다. 화이트리스트는 당신이 그렇게 관대하게 만들지 않는 한, 당신의 다른 모든 작업을 취소 할 수 있습니다. – SimonMayer

+0

각 이메일에는 'Request'라는 헤더 정보가 있습니다.이 헤더 정보는 어디서 왔는지, 어떤 클라이언트에서 왔는지, 어느 서버를 통과했는지 등에 대한 정보입니다. 이것은 전자 메일 헤더에서 가장 신뢰할 수있는 정보입니다. 나는 그 데이터를 이해하는 방법을 알아 내려고 노력하고있다. –

관련 문제