2009-07-26 6 views
5

Wordpress에는 텍스트 블록을 스팸으로 분류 할 수있는 것으로 보이는 Akismet이라는 스팸 필터링 플러그인이 있습니다. 인터페이스와 데이터베이스/알고리즘을 통과해야하는 유일한주의 사항은 공개 소스이거나 쉽게 사용할 수있는 것이 아닙니다.무료 안티 스팸 데이터베이스가 있습니까?

웹 응용 프로그램의 사용자가 제출 한 이메일, 설명 또는 기타 텍스트를 분류 할 수있는 웹 액세스 API를 제공하는 상업용 제공 업체도 있습니다.

텍스트 블록을 스팸/비 스팸으로 분류 할 수있는 오픈 소스 또는 자유롭게 액세스 할 수있는 데이터베이스가 있습니까?

편집 : 여기에 내가 기본적으로 내가 특정 문구되는 스팸 메일의 확률로 밖에 광범위한 데이터베이스가 있다고 기대했다

를 원하는 것을 명확하게 설명합니다. 스팸 발송자가 모든 이메일 주소를 똑같이 스팸한다고 가정하기 때문에 베이 즈식 스팸 필터를이 데이터베이스에 미리 채워서 사용자 교육없이 대부분의 스팸을 캡처하여 시작하는 응용 프로그램을 만들 수 있습니다. 의견에 따라

답변

1

업데이트 :

나는 간단한 데이터베이스가 트릭을 할 것이라고 생각하지 않습니다. 대부분의 스팸은 알고리즘을 통해 생성됩니다 (예 : 댓글 스팸은 일반적으로 게시물의 콘텐츠를 통합합니다). Akismet은 아마도 링크 분석과 알려진 스팸 서명의 사용을 포함하여 여러 가지를 조합하지만 게시하지는 않습니다.

흥미로운 인공 지능 프로젝트에 대해 classify good rather than bad content으로 읽었습니다. 또한 다양한 스팸성 트리거 (페이지로드 직후 응답 게시 등)를 기반으로 블로그 댓글을 분석하는 Spam Karma을 볼 수도 있습니다.


원래 대답 (DNS 블랙리스트) :

+0

저는 텍스트 블록을 스팸으로 분류 할 수있는 데이터베이스가 더 필요합니다. Akismet (워드 프레스 플러그인)은 예를 들어 모든 댓글을 스팸으로 분류 할 수 있습니다. –

+0

Jon이 말한 것처럼 데이터베이스는 분류에별로 유용하지 않습니다. Akismet은 데이터베이스에 대해 확인하는 대신 스팸을 만드는 데 사용되는 절차 생성을 모방합니다. – JoshJordan

+0

링크를 제공해 주셔서 감사합니다. 스팸을 분류하기위한 많은 알고리즘이 있지만 스팸 시그니처의 훌륭한 데이터베이스는 매우 가치가 있습니다. Wordpress 나 Google 같은 누군가 무료 데이터베이스로 스팸 서명을 게시하기를 바랬습니다. 아마, 나는 알고있다. 하지만 사람이 꿈꿀 수 있니? –

1

아마도 이것은 완전히 죽은 질문 일 수 있습니다. 그러나 이것을 확인해보십시오. http://www.stopforumspam.com API를 사용하여 IP를 확인하거나 DB에 대해 입력 한 사용자 이름이나 이메일을 확인하십시오. 그러나 시간 초과 매개 변수와 함께 cURL을 사용하는 것이 좋습니다 - 때로는 서비스가 시간 초과되거나하지 않을 수 있습니다.

관련 문제