2014-01-20 2 views
1

나는 스팸 필터링과 관련된 프로젝트를 진행 중이다. (대신 내가의 파이프) 특수 기호를 사용한 단어 변형 모음

  • h0t 대신 고온의 대신 판매
  • $ 에일 (| "TEM"로

    1. 쓰기 "항목"당신의 대부분은 스패머가 사용하는이 기술을 알고 수 있습니다 제로 대신 문자 'O')의

    등 등

    데이터베이스가 특수 기호를 사용하여 단어의 이러한 모든 가능한 변형 할 수있는 경우 내가 궁금? 아니면이 트릭을 다루는 좋은 전략에 대해 아는 사람이 있습니까?

    현재 내가 한 것은 '@'을 'a', '|' 'i', '$'와 's'등이 포함됩니다. 이 문제에 대한 의견이 필요합니다! 도와주세요.

  • +0

    질문을 닫기 전에 투표 하시려면 아이디어 나 제안 사항을 제시하십시오. (! – kunal18

    답변

    1

    메시지를 시작점으로 삼아 변환하려고하는 것 같습니다.

    다른 aproach는 변경 될 가능성이있는 단어 목록 (판매, 비아그라 등)을 정의한 다음 가능한 모든 유사한 단어를 생성하여 시작할 수 있습니다. 유사성을 측정하기 위해 Levenshtein 거리를 사용할 수 있습니다.

    +0

    thanks :)! 나는 Levenshtein 거리에 관해 결코 생각하지 않았다! 사전을 사용하면 수정 된 단어의 가능한 단어 목록을 얻을 수 있습니다. 그러면 어떻게 든 최선의 단어를 선택해야합니다! – kunal18

    +1

    스팸 탐지에 대한 많은 연구가 있었음에 틀림없지 만 도움이 되었기 때문에 기쁜 일입니다. http://scholar.google.be/scholar?q=spam이 가장 적절한 소스라고 생각합니다. –

    관련 문제