2016-07-12 4 views
0

StreamingLogisticRegressionwithSGD를 사용하여 CTR 예측 모델을 작성하려고합니다. StreamingLogisticRegression with SGD에서 범주 형 변수 처리

The document is here

는 numFeatures이 일정해야한다고 언급하고있다.

내가 직면 한 문제는 다음과 같습니다. 대부분의 변수는 범주 형이므로 numFeatures 변수는 레이블이 지정된 점 형식의 범주 형 변수를 인코딩하고 구문 분석 한 후 최종 변수 집합이어야합니다.

범주 형 변수 x1에 대해 현재 창에 10 개의 고유 값이 있다고 가정합니다.

그러나 다음 창에서 몇 가지 새로운 값/항목이 x1에 추가되고 고유 값의 수가 증가합니다. 이 경우 numFeatures 변수를 어떻게 처리해야합니까? 변경 될 예정입니까?

기본적으로 제 질문은 스트리밍 모델에서 범주 형 변수의 새로운 값을 어떻게 처리해야합니까?

덕분에, Kundan

답변

0

당신은 0 값에 누락 된 열을 작성하고 훈련을 위해 사용하는 경우와 동일하게 유지의 확인 번호를 만들기 위해 각 창에 새로 발생하는 값을 폐기해야한다.

훈련 세트에서 [NewYork, Paris, Tokyo] 값을 갖는 열 city을 고려해 보겠습니다. 이렇게하면 세 개의 열이 생깁니다.

예측시에는 값을 발견 한 경우 [NewYork, Paris, Chicago, RioDeJaneiro]는 값이 Chicago 및 "RioDeJaneiro"다음에 "동경"에 대응하는 칼럼에 대해 0의 값을 기입 버려야 이러한 결과는 아직 세 개의 열을 가지고 ([NewYork, Paris, Tokyo] 각각 하나).

+0

내 주요 관심사는 새 배치 (교육 데이터)에서 범주 형 변수의 새로운 값을 처리하는 방법이었습니다. 이전 배치에서 나는 [NewYork, Paris, Tokyo]라고 말했고 현재 배치에서 값은 [NewYork, Paris, Chicago, RioDeJaneiro]입니다. 로밍 회귀 모델을 스트리밍 할 때 numfeatures가 일정해야하므로이 새로운 값을 어떻게 처리해야합니까? 감사 ! –

관련 문제