StreamingLogisticRegressionwithSGD를 사용하여 CTR 예측 모델을 작성하려고합니다. StreamingLogisticRegression with SGD에서 범주 형 변수 처리
는 numFeatures이 일정해야한다고 언급하고있다.내가 직면 한 문제는 다음과 같습니다. 대부분의 변수는 범주 형이므로 numFeatures 변수는 레이블이 지정된 점 형식의 범주 형 변수를 인코딩하고 구문 분석 한 후 최종 변수 집합이어야합니다.
범주 형 변수 x1에 대해 현재 창에 10 개의 고유 값이 있다고 가정합니다.
그러나 다음 창에서 몇 가지 새로운 값/항목이 x1에 추가되고 고유 값의 수가 증가합니다. 이 경우 numFeatures 변수를 어떻게 처리해야합니까? 변경 될 예정입니까?
기본적으로 제 질문은 스트리밍 모델에서 범주 형 변수의 새로운 값을 어떻게 처리해야합니까?
덕분에, Kundan
내 주요 관심사는 새 배치 (교육 데이터)에서 범주 형 변수의 새로운 값을 처리하는 방법이었습니다. 이전 배치에서 나는 [NewYork, Paris, Tokyo]라고 말했고 현재 배치에서 값은 [NewYork, Paris, Chicago, RioDeJaneiro]입니다. 로밍 회귀 모델을 스트리밍 할 때 numfeatures가 일정해야하므로이 새로운 값을 어떻게 처리해야합니까? 감사 ! –