1

웹 페이지의 광고 인 이미지를 감지하는 앱을 만들려고합니다. 일단 내가 그들을 감지하면 클라이언트 측에 표시되도록 허용하지 않을 것입니다.신경망 입력 데이터의 최적화

기본적으로 여기에 제공된 데이터 세트를 사용하여 신경망을 학습하는 Back-propagation 알고리즘을 사용하고 있습니다 : http://archive.ics.uci.edu/ml/datasets/Internet+Advertisements.

하지만 그 데이터 세트에서. 속성의 값이 매우 높습니다. 사실 프로젝트의 멘토 중 한 명은 저에게 많은 특성을 가진 신경망을 훈련하면 훈련을받는 데 많은 시간이 걸릴 것이라고 말했습니다. 그렇다면 입력 데이터 세트를 최적화하는 방법이 있습니까? 아니면 그냥 많은 속성을 사용해야합니까?

답변

5

1558은 실제로 적절한 수의 기능/속성입니다. 인스턴스 수 (3279)도 작습니다. 문제는 데이터 집합 측면이 아니라 교육 알고리즘 측면입니다.

ANN은 훈련이 느립니다. 물류 회귀 또는 svm을 사용하는 것이 좋습니다. 둘 다 매우 빠르게 훈련 할 수 있습니다. 특히 svm에는 많은 알고리즘이 있습니다.

이 데이터 세트에서 실제로 텍스트는 분석하지만 이미지는 아닙니다. 선형 가족 분류 기준, 즉 로지스틱 회귀 또는 svm이 귀하의 직업에 더 적합하다고 생각합니다.

프로덕션을 위해 사용 중이며 오픈 소스 코드를 사용할 수 없습니다. 좋은 ANN과 SVM에 비해 로지스틱 회귀를 구현하는 것이 매우 쉽습니다.

로지스틱 회귀 또는 SVM을 사용하기로 결정한 경우 향후 추천 할 기사 또는 소스 코드를 추천 할 수 있습니다. aplly

+0

선생님, 내 프로젝트 그룹은 이것을 위해 신경망을 사용하고 싶습니까? 신경망 옵션이 있습니까? 이것에 대해 어딘가에서 도움을받을 수 있습니까? 신경망과 같은 로지스틱 회귀 알고리즘을 사용할 수 있습니까? 그리고 더 중요한 것은 그러한 종류가 있습니까? –

+1

신경망은 고도로 차원적인 문제 공간이 아닙니다. GPU를 사용하거나 기능 또는 예제의 수를 줄이기 위해 더 빨리 시도하십시오. 결국 엔은 작업에 대한 잘못된 도구입니다. –

+0

이제 ANN이 올바른 도구가되지 않을 것이라는 것을 알고 있으므로 지금 SVM을 사용하기로 결정했습니다. 그것은 내 프로젝트에서 사용하는 방법에 대한 몇 가지 기사를 추천 할 수 있다면 좋을 것이다. 또한 먼저 구현해야하는지 여부를 묻고 싶습니다. SVM을 구현하기 전에 PCA. 감사합니다. 건배! –

0

예를 들어 기능 URL 약관 (ANN1) 495 입력 origurl 1 개 출력 (ANN2) 1 개 출력 ...

다음 그들 모두를 훈련

457 입력의 각 범주에 대한 별도의 ANN 다른 주요 ANN을 사용하여 결과를 결합하십시오.

1

실제로 1558 입력 노드와 3279 샘플을 사용하는 역 전파 네트워크를 사용하는 경우 교육 시간이 가장 적습니다. 10 개의 뉴런을 포함하는 하나의 숨겨진 레이어 만 1558 * 10의 가중치를 갖습니다. 입력 레이어와 숨겨진 레이어를 비교합니다. 불과 3279 개의 샘플에서 15580 자유도에 대한 좋은 추정치를 얻으려면 어떻게 기대할 수 있습니까? (그리고 그 간단한 계산은 "차원의 저주"를 고려하지 않습니다.)

데이터를 분석하여이를 최적화하는 방법을 찾아야합니다. 입력 데이터를 이해하려고 노력하십시오 : 통계적으로 유의미한 (결합 된) 특징은 무엇입니까? (표준 통계 방법을 사용하십시오.) 일부 기능이 중복됩니까? (주성분 분석은 이것에 대한 좋은 요점입니다.) 인공 신경망이 당신을 위해 그 일을 할 것으로 기대하지 마십시오.

기타 : remeber Duda & 수사슴의 유명한 "no-free-lunch-theorem": 모든 문제에 대해 분류 알고리즘이 작동하지 않습니다. 그리고 어떤 분류 알고리즘 X의 경우 동전을 뒤집는 것이 X보다 나은 결과를 가져 오는 문제가 있습니다. 이것을 고려하면 데이터를 분석하기 전에 사용할 알고리즘을 결정하는 것이 현명한 아이디어가 아닐 수도 있습니다. 당신은 당신의 특정 문제에 대해 시각적으로 추측하는 것보다 실제로 더 나쁜 알고리즘을 선택했을 것입니다. (덧붙여서 : Duda & Hart & Storks의 book about pattern classification은 아직 읽지 않았다면 이것을 배우기에 좋은 출발점입니다.)