문제는 regression (link) 범주에 해당합니다. 기계 학습 용어로는 features (link) (질문에 나열한)의 컬렉션이 있고 점수 값이 주어지면 은으로 예측됩니다.
Ted Hopp이 제안한 것은 기본적으로 linear predictor function (link)입니다. 시나리오에 너무 단순한 모델 일 수도 있습니다.
logistic regression (link)을 사용하는 것이 좋습니다. 사용 방법은 다음과 같습니다.
1. 생성 모델 학습 데이터 세트
무작위로 그것은 당신이 편안하게 손이 m
블로그 게시물을 통해 볼 수있는 작은만큼 설정해야합니다 4000 당신의 세트에서 일부 m
블로그 게시물을 선택합니다.
블로그 게시물 m
개 각각에 대해 0
에서 1
까지의 숫자로 "좋은"점수를 부여하십시오. 도움이된다면 0, 0.25, 0.5, 0.75, 1
값으로 0, 1, 2, 3, 4
"별"을 사용하는 것으로 생각할 수 있습니다.
이제 블로그에는 각각 일련의 기능과 점수가있는 블로그 게시물 m
개가 있습니다.
"Upvote Count", "Comments Recieved", "Share Count"및 "Follower Count"의 로그를 포함 할 수 있도록 예를 들어 파생 된 기능을 포함하도록 기능을 확장 할 수 있습니다. "now"와 "Created Time"사이의 시간의 로그를 포함 할 수 있습니다.
2.
은 모델 학습 데이터 집합을 맞는 로지스틱 회귀 모델을 찾기 위해 모델
를 사용하여 그라데이션 하강을 배웁니다. 모델 집합 학습 과정에서 해당 단계를 수행 할 수 있도록 훈련, 유효화 및 테스트 집합으로 데이터 집합을 분할해야합니다.
인터넷에 세부 정보가 가득하며 처리가 완료되었으므로이 섹션에서는 더 이상 설명하지 않겠습니다.
위키 백과 링크 :
3. 적용 모델
이 로지스틱 회귀 모델을 배운, 당신은 지금의 점수를 예측하기 위해 적용 할 수 있습니다 "좋은"새로운 블로그 게시물은 얼마나! 간단히 일련의 피쳐 (및 파생 피쳐)를 계산 한 다음 모델을 사용하여 이러한 피쳐를 점수에 매핑합니다.
다시 인터넷에는이 섹션에 대한 자세한 내용이 있습니다.이 섹션은 미리 준비된 프로세스입니다.
질문이 있으시면 언제든지 문의하십시오.
기계 학습에 대해 자세히 알아 보려면 the free online Stanford Machine Learning course on Coursera.org을 고려해야합니다. (저는 Stanford 또는 Coursera와 제휴하지 않았습니다.)
너무 광범위하게 투표를 마감합니다. –