2013-08-14 3 views
3

도서에 관한 자신 만의 간단한 추천 시스템을 만들고 싶습니다. 그러나 몇 가지 문제가 있습니다. 한 사람이 알고리즘에 대한 교육 데이터 세트를 구성하는 것이 불가능합니다 (적어도 매우 어렵습니다).추천 시스템 용 데이터 세트

사람들의 득표에 대한 정보가있는 무료 데이터 세트 나 퀴즈가 있습니까? 책과 좋아하는 책은 무엇입니까?

두 번째 질문은 책의 매개 변수에 대한 것입니다. 항목 기반의 예측을 위해서는 실제로 책의 등급 (예 : 언어, 평균 단어 길이, 단락의 평균 단어 수, 약 30 개의 매개 변수를 계산 한 것)과 가중치 (예 : 책의 언어가 정격입니다. 1 점, 0.314의 평균 단어 길이). 그래서 그것에 대한 준비된 정보가 있습니까?

사실, 첫 번째 질문에 대한 답을 얻은 경우 두 번째 질문에 대한 해결책을 찾을 수 있지만 필요한 정보가 존재한다는 것이 확실합니다.

또한, 나는 Recommender Systems Handbook을 읽고 있는데, (참고 자료와 함께) 완전한 정보를 제공하지만, 읽기가 어렵다. 이 경우 일부 여분의 서적에 조언 할 수 있습니까?

답변

7

Books.txt.gz를 확인할 수 있습니까? https://snap.stanford.edu/data/web-Amazon.html 은 Amazon의 서평으로 구성됩니다. 또한 제품명, 가격, 리뷰 요약 등

또한 북 크로싱 데이터 세트가 유용 http://grouplens.org/datasets/book-crossing/

내가 두 번째 질문은 기능 선택의 문제이며 무게는 각 데이터 세트에 대해 서로 다른 것 생각 될 수있다.

coursera의이 코스는 추천 시스템에 대한 간략한 정보를 제공하며 읽기 영역도 있습니다. https://www.coursera.org/course/recsys

판독 : http://recsys.cs.umn.edu/readings.html

0

이 데이터 세트는 책이 아닌 영화에 관한 것이지만 Netflix Prize 데이터 세트가 추천 알고리즘 테스트 방법으로 유용 할 수 있습니다. 근본적인 문제는 대역 외 기능 필요, 다른 가중치가있는 기능 결합 등과 같은 두 데이터 세트와 동일합니다.

읽을 추가 도서는 "Programming Collective Intelligence"입니다. 나는 그것이 명확하게 쓰여지고 매우 도움이된다는 것을 알았다. 또한 모든 예제 알고리즘에 대한 코드를 포함합니다.

+0

덕분에, 나는 그것을 확인합니다 불행히도 퀴즈는 더 이상

물론 사용할 수 없습니다. – user2317480