나는 이것을 쉽게 확인할 수 있다고 생각하지 않습니다.'Roger'라는 이름을 사용하는 것이 단지 예일 뿐이므로 정규 표현식을 던질 수있는 간단한 문자열 매칭 문제 일 가능성은 낮습니다. 그리고 그 수만큼의 이름이 해당 위치에 나타날 수 있습니다. 또한 다른 포스터에서 제공하는 정규 표현식 중 하나를 실행하여 명백한 이름과 성의 모든 순열과 함께 매개 변수화 할 수 있습니다. 이것은 아마도 "너무 길다"와 "영원히"사이의 어딘가에 걸릴 것이고 많은 오탐 (false positive)을 일으킬 것입니다.
위에서 게시 한 패턴과 함께 작동하는 또 다른 접근법은 사용자 이름의 마지막 4자를 가져 와서 비교하는 것입니다. 합당한 텍스트에 마르코프 체인을 교육하면 분별력있게 (특정 언어가 지정된 경우) 정렬되지 않고 무작위로 나타나는 문자를 찾아 낼 수 있습니다. 그런 다음 해당 언어로 주어진 4 개의 문자가 나타날 확률을 계산할 수 있습니다. 무작위 문자의 경우이 확률은 일반적으로 합법적 인 이름보다 훨씬 낮습니다 (특수 문자 또는 숫자가있는 경우 모든 베팅은 꺼져 있음).
다른 방법으로는 합법적 인 이메일 주소의 마지막 4 글자에 대해 베이 즈안 필터 (예 : Reverend, 예 : Python의 경우)를 사용할 수 있습니다. 아마도 데이터를 사용할 수있게 만든다면 무작위였던 것의 95 %를 발견 할 것입니다. 예. 각 글자의 컨텍스트를 캡처하기 위해 4 글자가 아닌 2 글자와 3 글자의 하위 문자열을 제출하십시오. 나는 이것이 마르코프 스타일의 방법뿐만 아니라 작동 할 것이라고 생각하지 않는다.
어떤 검사를하든, 특정 전자 메일 주소 (예 : 밑줄을 포함하는 웹 메일 주소의 경우에만 3 자 이상, 5 자 이후) 만 제출하여 위양성을 줄일 수 있습니다.)
하지만 궁극적으로 스팸 주소인지 아니면 실제 목적인지 여부를 모를 수 있습니다. 그래서 가능하다면 콘텐츠를 분석하고 다른 곳에서 문제를 해결하려고 시도하는 것을 포기할 것을 제안합니다. 어떤 방법으로 그들은 전환율을 죽입니까? 이러한 가짜 계정을 일종의 측정 항목으로 계산하는 경우 먼저 확인 단계를 추가하고 인증을 통과 한 계정에 대한 측정 항목 만 신경 써주는 것이 가장 좋습니다. 어떤 사람들에게는 실제로 [email protected]과 같은 주소가 있습니다.
성직자는 아주 굉장한 것처럼 보입니다. 그리고 끝내 대답에 감사드립니다! – RadiantHex