2011-09-22 2 views
2

나는 하나 이상의 국가에서 (식별자, 운전 면허증 및 여권 등) 서류 세트를 가지고 있으므로 클래스에 각각 분류 할 필요가있다. 그런 다음 새로운 문서를 분류 할 수있다. 그 클래스.합법적 인 문서 그림을 분류하는 가장 적합한 분류 알고리즘은 무엇입니까?

문서가 회전되거나 이동되거나 둘 다일 수 있습니다. 동일한 클래스의 두 문서의 문서 색이 정확히 같지 않을 수 있습니다.

이를 수행하는 데 가장 좋은 알고리즘은 무엇입니까?

답변

1

다른 사람들이 언급했듯이, 그것은 진정한 분류 문제가 아닙니다. 또한 회전, 비뚤어 짐 등의 항목이 있으므로 이미지에서 개체 검색/기능 분석을 수행해야합니다.

perceptual hashing 또는 Speeded Up Robust Features (SURF) (자세한 내용은 회전/기울이기가 많은 경우 후자를 참조하십시오.)을 살펴 보는 것이 좋습니다. 즉, 이미지를 식별 할 수없는 영역 (예 : 사용자의 정보가있는 영역이나 사진 등을 제거하는 영역)으로 분할합니다. 일치하는 특징 점 수가 많은 영역에 집중할 수 있습니다.

특정 ID 클래스의 모든 인스턴스에서 일관된 영역을 사용하여 일치 점수가 높아지도록 한 다음 비교하는 모든 섹션의 집합을 취하여 분류를 수행하십시오.

0

수십 가지가 아니라해도 수백 가지의 분류 알고리즘이 있습니다. 기본적으로 찾고있는 것은 클러스터링입니다.

http://en.wikipedia.org/wiki/Cluster_analysis

는 문서를 분석하고 몇 가지 주요 숫자에로 요약 할거야,이 일을합니다. 클러스터링이 작동하기에 완벽 할 필요는 없습니다.

그래서 어떤 종류의 정규화 (텍스트가 수평이되도록 모든 문서 회전)가 가능하지만 좋지 않을 수 있습니다. 예를 들어 키 분류 번호가 전체 색상을 기반으로 한 경우 - 모든 순환 게재에서 동일하게 적용됩니다.

+0

하지만 클래스가 알려져 있기 때문에 클러스터링이 클래스를 결정하는 데 사용됩니다. –

+0

귀하의 의견으로는 문서에서 수집해야 할 주요 기능 또는 주요 번호는 무엇입니까? –

+0

알려진 클래스와 비슷합니다. 알려진 것과 알지 못하는 사이의 거리를 측정하기 만하면됩니다. 열쇠는 여전히 거리를 계산할 수있는 매개 변수가 있습니다. 그것은 매우 도메인 특정, 그래서 그것은 제안하기 어렵다. 회전 할 수없는 경우 회전에 관계없이 동일한 항목을 선택해야합니다. 회전 할 수있는 경우 훨씬 더 좋습니다. OCR (예 : Tesseract)을 사용하면 (0, 90, 180, 270의 네 가지 회전 모두 시도해보십시오.) 가장 실제적인 단어를 제공 할 가능성이있는 단어입니다. 높이와 너비의 비율 (거꾸로되어 있는지 확인)을 알고 있으면 범위를 좁힐 수 있습니다. –

2

문제는 어떤 분류 알고리즘을 선택하지 않고 분류 문제의 모든 관련 숨겨진 차원을 이해해야합니다. 관련된 모든 차원을 이해하면 분류 알고리즘 중 하나를 사용하여 원하는 것을 얻을 수 있습니다.

+0

당신은 옳습니다, 그러나 당신의 의견에있어서 주요 치수는 무엇입니까? 히스토그램, 텍스처, 크기 및 기타 기능을 생각했습니다. 어떻게 생각해? –

+1

불행하게도, 주요 차원은 문제 공간의 함수입니다. 나는 차원의 철저한 세트 (내가 생각할 수있는 모든 것)로 시작하고 감독 된 알고리즘을 사용하여 훈련 할 것이다. 그런 다음 입력 데이터에 확률 론적 변화를 도입하고 성능 차이를 측정합니다. –

+1

나는 Image Processing Cookbook을 제안한다. 아주 좋은 초보자 가이드입니다.http://www.amazon.com/Image-Processing-Cookbook-processing-scientific/dp/1448691214 –

관련 문제