2016-09-06 3 views
0

약 300000 개의 예제와 약 50-60 개의 특징이있는 교육 세트가 있으며 약 7 개의 클래스가있는 멀티 클래스입니다. 그라디언트 강하를 사용하여 매개 변수의 수렴을 확인하는 로지스틱 회귀 함수가 있습니다. 내 그라디언트 디센트 알고리즘은 루프에서 개별적으로 선형 적으로 수행하는 것보다 행렬 형식에서 더 빠르기 때문에 행렬 형식의 매개 변수를 찾습니다. 를 Ex : 행렬 (P) <이 - 행렬 (P)이 - LearningRate은 (T (매트릭스 (X)의) * (매트릭스 (H는 X가)는 (Y)) -Matrix)() 작은 훈련 데이터를대용량 데이터에 그라디언트 디센트가있는 로지스틱 회귀

, 그것의 매우 빠르며 최대 반복 횟수가 1000000 정도 인 올바른 값을 제공하지만 많은 교육 데이터를 사용하면 약 500 회 반복으로 18 분이 걸리는 매우 느립니다. 그러나 그래디언트 디센트에서 반복 작업을 반복하면 비용이 여전히 높으며 그것은 정확하게 클래스를 예측하지 않습니다.

필자는 기능 선택이나 기능 확장을 구현해야하며 제공된 패키지를 사용할 수 없다는 것을 알고 있습니다. 사용 된 언어는 R입니다. 라이브러리 패키지를 사용하지 않고 기능 선택 또는 확장을 구현하는 방법은 무엇입니까?

답변

0

link에 따르면 Z 점수 정규화 또는 최소 최대 조정 방법을 사용할 수 있습니다. 두 방법 모두 데이터를 [0,1] 범위로 조정합니다.

enter image description here

: Z-score normalizationenter image description here

Min-max scaling method로 계산은 다음과 같이 계산된다