2

영화, 음악, 도서 추천에 협업 필터링 (CF)이 사용되는 방법은 알려져 있습니다. 논문 'Collaborative Topic Modeling for Recommending Scientific Articles'에서 작가는 ~ 5,500 명의 사용자와 ~ 17,000 개의 과학 기사에 적용되는 공동 필터링의 예를 보여줍니다. ~ 200,000 개의 사용자 - 항목 쌍으로 사용자 - 기사 행렬은 분명히 매우 희박합니다.뉴스 기사 또는 블로그 게시물에 대한 공동 필터링

matrix factorization과 협력 필터링을 수행하면 Twitter에 공유 된 모든 뉴스 기사를 어떻게 볼 수 있습니까? 이 매트릭스는 CF를별로 적용 할 수 없도록 (과학 기사의 경우보다) 드문 드문 될 것입니다. 물론, 우리는 콘텐츠 인식 분석 (기사의 텍스트를 고려)을 할 수는 있지만 그건 내 초점이 아닙니다. 또는 우리는 사용자 기사 매트릭스를 더 조밀하게 만들기 위해 시간 창을 제한 할 수 있습니다 (초점, 말하자면 마지막 날이나 주에 공유 된 모든 뉴스 기사). 다른 모든 아이디어는 행렬이 매우 희소하다는 사실과 어떻게 싸울 수 있습니까? CF 분야의 뉴스 기사 추천을위한 연구 결과는 무엇입니까? 많은 감사드립니다!

+1

희소 행렬의 문제는 무엇입니까? 행렬이 메모리에 맞지 않거나 결과가 부정확하다는 뜻입니까? – ffriend

답변

4

사용자 - 개체 필터 대신 개체 - 개체 공동 작업 필터를 사용해보십시오. 어쨌든 유스 케이스에서는별로 관련이 없으므로 시간이 지남에 따라 관련 쌍 (및 빈도가 낮은 쌍)을 노쇠화하십시오.

나는 Netflix Prize에서 당일 작업을했으며, 어떤 항목이 사용자의 즐겨 찾기인지 예측하는 것과 관련하여 기본 모델보다 훨씬 뛰어난 성능을 보였다는 사실을 신속하게 발견했습니다. 불행히도 기본적으로 스칼라 예측 자라기보다는 계급 모델이므로 비교할 RMSE 값이 없습니다.

이 시스템의 생산 버전을 작성했기 때문에이 방법이 효과적이라는 것을 알고 있습니다. 초기 테스트 결과에 따르면 사용자의 최고 평점 영화의 50 %가 삭제 된 작업에서 객체 - 객체 모델은 기본 경사보다 사용자의 실제 즐겨 찾기의 약 16 배 더 정확하게 예측했습니다 (즉, "대체 됨") - 하나의 모델. 또한 테이블 크기도 관리가 가능합니다. 거기에 따라 응용 프로그램에 따라 정렬 순서 등에 대해 수익성 가중치를 포함시키는 것이 쉽습니다.

희망이 도움이됩니다. 나는 프로덕션 환경에서 작동하는 버전을 가지고 있지만 베타 클라이언트가 시스템에 강하게 부딪 힐 때까지 기다리고 있습니다 ... 누군가에게 당신에게 듣고 싶은 시간을 주면됩니다.

젭 스톤, 박사 과정

www.selloscope.com

관련 문제