2011-01-02 5 views
13

검색 엔진을 만드는 중입니다 (공부할 때) Safesearch (http://en.wikipedia.org/wiki/Safesearch)로 Google이 성인용 콘텐츠 및 이미지를 어떻게 인식하는지 알고 싶습니다.Google은 성인용 콘텐츠를 safesearch로 어떻게 인식합니까?

프로그램 언어는 중요하지 않습니다. 제네릭 프로그램 언어에 대한 접근 방식 만 알고 싶습니다.

+0

너무 현지화되어있어 폐막 할 의사가 있습니까? 어떻게 너무 지역화 되었습니까? – marcog

+0

언어가 중요하지 않은 경우 왜 두 언어 태그로 태그를 추가 했습니까? – sbi

+0

@sbi : * 아마도 *이 언어는 그가 가장 좋아하는 언어입니다. 나는 그들을 재검사 하겠지만 그의 행동을 기다리는 것이 더 낫다;) –

답변

14

모든 종류의 콘텐츠 필터에 대한 규칙이 필터를 통해 해당 콘텐츠를 얻으려는 사람들의 손에 넘어 가면 필터가 효과적이지 않습니다.

Google의 규칙 (1)이 공개적으로 사용 가능하지 않고 (2) 자주 변경된다고 상상해보십시오.

성인 사이트의 작은 블랙리스트에서 시작하여 나가는 링크 (및/또는 블랙리스트에 올라온 사이트에 대한 링크가있는 사이트 찾기)를 시작하면 엄청나게 많은 성인 사이트를 발견 할 수 있습니다. 그러나 결코 모든 것이 아니라 텍스트 처리 및 이미지 인식 알고리즘을 추가로 원할 것입니다.

참고 : 인기있는 이론은 성인용 콘텐츠 제공 업체가 stackoverflow.com에서 질문을하여 Jon Skeet과 Marc Gravell이 SafeSearch 필터를 업데이트하는 시간이 단축된다는 것입니다. 그러나 Jon과 Marc이 그러한 높은 비율로 질문에 답하는 것이 경제적으로 실용적이지 않을 것이라고 쉽게 나타납니다.

+2

** 다음 질문 : ** Jon Skeet과 Marc Gravell이 대답하는 stackoverflow 질문 생성에 유용한 알고리즘은 무엇입니까? – Xeoncross

+1

@Xeoncross : 프로필 페이지는'C#','.net','java' 및'linq' 태그 중 하나를 적용하면 효과가 있음을 보여줍니다. 이러한 태그 중 둘 이상을 사용하면 더 나은 결과를 얻거나 컴퓨터가 해킹되어 Google 보그 클라우드에 통합 될 수 있습니다. 자신의 책임하에 사용하십시오. –

2

매우 복잡 할 것입니다.

아마도 문자로 그들은 n 또는 n% 성인 관련 단어가있는 페이지를 필터링합니다.

이미지를 사용하면 각 이미지가 발견 된 페이지의 파일 이름과 주변 텍스트를 확인하고 성인용 단어로 가득 찬 경우 필터링 할 수 있습니다. 또한 실제로 육체적 인 색조와 알몸의 사람을 찾는 이미지를 스캔 할 수도 있습니다.

3

벤의 대답은 모든 점에 대해 정확하지만, 제 생각을 추가하고 싶습니다.

이미지 인식 정보 : 패턴 인식을 사용하여 벌거 벗은 가슴, 페니스 및 내부와 같은 물체를 식별하기 위해 이미지 세트가 주어지면 아주 쉽게 이미지를 찾을 수 있습니다.

그러나 모든 인공 지능 알고리즘에는 약점이 있습니다. 사용 된 분류 자의 품질에 따라 이미지의 특정 비율이 잘못 분류되는 것을 경험할 수 있습니다.

그런 다음 이미지 처리 이외의 다른 기준을 적용해야합니다. 분명히 Google의 기준은 공개되지 않지만 특정 자료를 성인물, 텍스트 처리 및 도메인 간 링크로 표시하는 ICRA 태그를 고려하고 싶습니다. 제가 Safesearch의 창시자 였다면 다음과 같은 패턴을 채택했을 것입니다. 성인 사이트는 링크를 교환하기 때문에 성인 사이트 그룹 간의 링크 그래프에 교차로가 많이 있습니다. 모두 함께 퍼팅

, 좋은 분류 방식은 이미지가 성인 이미지인지 여부를 확인을 득점 여러 개의 작은 기준을 사용합니다.

2

스팸 필터링 방법과 비슷한 방식 일 수 있습니다.

첫 번째 단계는 알려진 성인 사이트를 기반으로 훈련 세트를 만들고 그 사이트에서 기능을 추출하는 것입니다.키워드, 이미지에 사용 된 색상, 도메인 이름 구조, Whois 세부 정보 등이 될 수 있습니다. 성인용 콘텐츠와 비교하여 특정 방식으로 다를 수있는 모든 것.

다음 단계는 일종의 통계 모델을 적용하는 것입니다. 베이지안 모델은 스팸에는 잘 작동하지만 성인용으로는 적합하지 않을 수 있습니다.

Support vector machines은 매우 적합하지만 훨씬 더 복잡하며 실제로 직접 익숙하지 않습니다.

관련 문제