2010-07-22 5 views
5

나는 항상 Gmail 스팸 필터의 높은 품질에 놀라곤합니다. 지난 해에는 99.95 %의 스팸을 필터링하여 실수로 1 개의 메일 만 차단했습니다. 이에 비해, 내가 사용한 다른 메일 서비스는 50 개의 메일마다 적어도 하나의 실수를 범합니다.Gmail 스팸 필터는 어떻게 작동합니까?

Gmail은 내부적으로 어떻게이 수준의 품질에 도달합니까? 고객의 피드백을 기반으로합니까 (N 고객이 메일을 스팸으로 차단하는 경우 다른 모든 고객에게 스팸으로 분류됩니까?) 아니면 어떤 트릭이 있습니까? 어쩌면 기본 필터 알고리즘이 가장 확실한 스팸을 걸러 낼 수 있으며, 일부 어려운 경우는 실제 사람이 분석합니까?

+4

하하하. 재밌 네요. Google에 독점적 인 영업 비밀 알고리즘 작동 방법을 문의하십시오. 왜 그들에게 물어 보지 않겠습니까? –

답변

8

간단히 말하면 커뮤니티 피드백을 기반으로합니다. 다음은 공식적인 설명의 인용문입니다.

Gmail 사용자는 수백만 개의받은 편지함에서 스팸 메일을 차단하는 데 중요한 역할을합니다. Gmail 커뮤니티가 클릭을 통해 특정 이메일을 스팸으로 신고하면 Google 시스템은 유사한 메일 차단을 신속하게 시작합니다. 커뮤니티에서 스팸 메일이 많을수록 시스템이 더욱 스마트 해집니다.

Spam Explained 페이지에서 조금 더 읽을 수 있습니다.

7

이것은 백만 달러의 질문이며, stackOverflow에서 응답 할 수 있다면 모든 스팸 메일 필터가 효과적입니다.

+0

그것은 그렇게 명백하지 않습니다. 말했듯이 어려운 상황을 필터링하기 위해 Google에서 사람을 고용하거나 필터가 사용자 피드백을 기반으로합니다. 이 경우 예, 사람들을 고용하여이 일을하거나 큰 커뮤니티를 신뢰하는 사람은 효과적인 스팸 필터를 만들 수 있습니다. –

+0

많은 양의 데이터가 있기 때문에 고품질의 스팸 필터가 필요합니다. Peter Norvig의 "데이터의 불합리한 효과" – Wes

2

Google이 스팸 필터링을 정확히 수행하는 방법을 모르지만 (결국 비즈니스 비밀이라고 생각합니다.) 스팸 필터링이 작동하는 방식에 관심이 있다면 베이지안 스팸 필터링 (http://en.wikipedia.org/wiki/Bayesian_spam_filtering)을 살펴 보는 것이 좋습니다. 방법을 쉽게 이해할 수 있습니다.

-1

Google은 Logistic Regression 또는 Neural Networks와 같은 분류 시스템을 사용하는 경우가 가장 많습니다. 최첨단 스팸 탐지 기술은 종종 이와 같은 기계 학습 알고리즘을 사용합니다.

출력 분류가 "스팸"또는 "스팸이 아님"이며 입력 내용은 Google의 일급 기밀이지만 확실히 "Buy Now", "On"과 같은 특정 이메일 텍스트 문구 Sale ","Viagra "또는"Male Enhancement "는 모두 모델의 요소입니다.

관련 문제