3

자신과 내 친구는 python으로 추천 엔진 프로젝트를 수행하기로 마음 먹었습니다. 처음에는 SVM을 사용하여 프로젝트를 수행하기로 결정했지만 곧 감독 학습으로는 어려움을 겪었습니다. 지도를 구성하고 가능하면 협업 필터링을 사용하여 가능한 조합을 구성 할 수 있습니다. 누구나 자체 구성 맵에 대한 좋은 참조를 제안 할 수 있습니다. 또한 협업 필터링을 사용하는 것 이외의 다른 옵션도 있습니다.SOM 기반 권장 엔진

고마워요.

+0

CrossValidated 또는 새로운 [DataScience.SE] (http://datascience.stackexchange.com)에서 더 잘 할 수 있습니다. – smci

답변

3

자기 구성 맵이 실제로 애플리케이션에 가장 적합한지도 모르겠습니다. 입력 공간의 토폴로지 특성을 보존 할 수는 있지만 추천 엔진의 지속적인 문제인 스파 스 데이터 세트와 실제로 잘 맞지 않습니다. SVM이 더 좋다고 말할 수는 없지만 사실 실제로는 SVM이 실제로 원하는 것보다 훨씬 더 낫습니다. 그러나 SOM은 조금 더 나아질 것입니다. 즉, SOM을 구축하는 방법을 배우려면 유용한 순서대로 다음 리소스를 살펴볼 가치가 있습니다. 또한 SOM은 실제로 이론적으로 컨볼 루션 신경망과 매우 유사하므로, 이들을위한 자원은 모두 잘 처리되어야합니다.

http://en.wikipedia.org/wiki/Self-organizing_map 
http://ftp.it.murdoch.edu.au/units/ICT219/Papers%20for%20transfer/papers%20on%20Clustering/Clustering%20SOM.pdf 
http://www.eicstes.org/EICSTES_PDF/PAPERS/The%20Self-Organizing%20Map%20%28Kohonen%29.pdf 
http://www.cs.bham.ac.uk/~jxb/NN/l16.pdf 
http://www.willamette.edu/~gorr/classes/cs449/Unsupervised/SOM.html 

지금까지 아마 특정 응용 프로그램에 대한 더 나을 방법으로, 나는 아마 제한 볼츠만 기계를 제안합니다. RBM을 사용하는 아이디어는 각 사용자에 대한 다양한 통계를 기반으로 각 사용자에 대한 "권장 프로필"을 작성하여 사용자의 특성 벡터를 정의하는 것입니다. 이 기본 예측은 깊은 신경망과 매우 유사한 방식으로 발생합니다.

일단 네트워크가 한 방향으로 훈련되면 RBM의 진정한 광휘는 사용자가 역방향으로 실행한다는 것입니다. 권장 프로파일에서 사용자 프로파일을 생성하려고합니다.이 프로파일은 이와 같은 어플리케이션에 적합합니다. RBMS에 대한 정보는 다음 링크를 방문 할 수 있습니다 :

http://deeplearning.net/tutorial/rbm.html 
http://www.cs.toronto.edu/~hinton/absps/guideTR.pdf 
http://www.cs.toronto.edu/~hinton/absps/netflix.pdf 

힌튼은 기본적으로 다음의 권한이며, 또한 데이터 과학의 총 BAMF이다. RBM 목록의 마지막 링크는 실제로 자체적으로 추천 엔진을 구축 할 수 있지만 사전 구축 된 라이브러리를 더 많이 사용하거나 데이터 과학의 다른 부분을 활용하려는 경우 어떤 종류의 차원 감소를 사용하는 것이 좋습니다. 메커니즘을 사용하십시오.

협업 필터링의 가장 큰 문제점은 일반적으로 원하는 정보를 제공하지 못하는 매우 드문 드문 한 매트릭스를 가지고 있으며 실제로는 유용하지 않은 많은 것들을 보유하게된다는 것입니다. 이러한 이유 때문에 주제 모델링 분야에 일련의 알고리즘이 있습니다.이 알고리즘은 협업 필터링을 사소한 데이터의 차원을 낮추거나 위의 다른 방법 중 하나에서 활용하여보다 의미있는 데이터를 얻을 수 있습니다 덜 강도.

gensim은 주제 모델링이 많은 파이썬 패키지이며 numpy와 scipy를 활용 한 tfidf 벡터를 빌드합니다. 그것은 또한 매우 잘 문서화되어 있습니다. 그러나이 예제는보다 직접적인 NLP를 목표로합니다. 개별 항목이 단어라는 사실은 기본 알고리즘에 아무런 영향을 미치지 않으며 덜 제한적인 시스템에 사용할 수 있습니다.

주제 모델링 섹션에서 금메달을 원한다면 다른 주제 모델러보다 약속이 있지만 번들로 제공되지 않는 주제 모델링의 새로운 알고리즘 인 Pachinko Allocation (PA)을 실제로 살펴 봐야합니다. 패키지.

http://www.bradblock.com /Pachinko_Allocation_DAG_Structured_Mixture_Models_of_Topic_Correlations.pdf 

나는 데이터 과학에 많은 도움이 되었기를 바랍니다. 더 이상의 질문이 있으시면 알려주십시오. 답변을 드릴 수 있습니다.

관련 문제