2009-10-20 3 views
5

다음 플레이어가 있습니다. 각 값은 주어진 게임에서 옳은 답변의 비율로 결과에 해당합니다.믿을만하고 신뢰할 수있는 플레이어를 찾기위한 알고리즘

$players = array 
(
    'A' => array(0, 0, 0, 0), 
    'B' => array(50, 50, 0, 0), 
    'C' => array(50, 50, 50, 50), 
    'D' => array(75, 90, 100, 25), 
    'E' => array(50, 50, 50, 50), 
    'F' => array(100, 100, 0, 0), 
    'G' => array(100, 100, 100, 100), 
); 

나는 최고의 선수를 선택할 수 있도록하려면 그러나 나는 또한 플레이어 (이하 엔트로피 = 더 안정적), 지금까지 나는 다음과 같은 공식으로 왔어요 얼마나 신뢰성을 고려 할 :

average - standard_deviation/2 

그러나 이것이 최적의 공식인지 잘 모르겠습니다.이 점에 대한 의견을 듣고 싶습니다.

average - standard_deviation/# of bets 

이 결과는 그 다음 곧 투표를 가중 될 것이다 : 나는이 문제에 좀 더 생각해 봤는데 내가 약간 다른 식으로 왔어요 여기가 수정 된 버전입니다 , 예를 들어 플레이어 C의 새로운 베팅은 베팅의 절반으로 계산됩니다.

내가 여기에 세부로 갈 수 있지만이 Wisdom of Crowds theoryDelphi method와 관련된 프로젝트 내 목표는 최선 몇몇 선수에서 지난 내기에 가중치를 다음 결과를 가능한 예측하는 것입니다.

감사합니다.

+2

최고의 환상적인 축구 팀을 선택하려고합니까? :) – Kip

+0

@Kip :별로는 아니지만 가까운. =) –

+1

(굵게 표시된) 추가 아이디어를 다시 작성하십시오. 축하합니다. 여러분은 평균의 표준 오류를 거의 재발견했습니다! average - 2 * stdev/sqrt (numBets)를 사용했다면, 평균을 둘러싸고있는 95 % 신뢰 구간의 하한이 있습니다. 이 값은 최선의 예측 변수를 선택하는 데 완전히 비합리적인 방법은 아닙니다. – Harlan

답변

3

우선 데이터 배열에 몇 개의 항목 만 있으면 표준 편차를 사용하지 않습니다. Median Absolute Deviation (MAD)와 같은 더 강력한 통계 측정을 사용하십시오. 마찬가지로 평균 대신 Median을 사용하여 테스트 할 수도 있습니다.

이것은 플레이어 베팅에 대한 "지식"이 단지 몇 개의 샘플로 제한되어 있다면 데이터가 이상치, 즉 플레이어가 운이 좋거나/운이없는 것에 의해 지배 될 것이기 때문입니다. 통계적 수단은 이러한 상황에서 완전히 부적절 할 수 있으며 어떤 형태의 휴리스틱 접근법을 사용하고자 할 수 있습니다.

나는 또한 당신이 실제로 최고의 선수를 고르려는 의도가 아니라 다음 선수 세트를 기반으로한다고 가정합니다. "A"는 올바른 대답 세트 "C"를 " A "선수의 이전 기록을 기반으로합니다.

물론이 문제에 대한 좋은 해결책이 있다면 주식 시장에서 살인을 할 수 있습니다 ;-) (아무도 그렇게하지 않는다는 사실은 그러한 해결책의 존재에 관한 표시 여야합니다) .

하지만 플레이어 순위에 다시 올라갑니다. 당신의 주된 문제는 0-100 %에서 균등하게 배분 된 정답의 비율을 취해야한다는 것입니다 (해야합니까?). 테스트에 여러 가지 질문이 포함되어있는 경우에는 그렇지 않습니다. 나는 완전 무작위 선수 "R"이 시험에서 얻은 점수를보고 실제 선수가 "R"보다 훨씬 좋거나 나쁨을 기준으로 상대 신뢰 지수를 작성합니다.

게임의 각 라운드마다 무작위로 100 만 명의 플레이어가 생성되고 점수 분포를 살펴 봅니다. 이 분포를 플레이어의 실제 점수에 대한 가중치로 사용하십시오. 그런 다음 MAD를 사용하여 가중치 점수를 결합하고 이미 제안한 것처럼 Median - MAD/some numbers를 계산하십시오.

+0

좋은 답변이지만,이 경우 왜 표준 편차/평균보다 MAD/중앙값을 사용하는 것이 더 좋을까요? –

+0

데이터의 n (데이터 요소)이 낮 으면 표준 편차 (평균)와 평균 (평균) 자체가 그다지 신뢰할 수 없습니다. 예를 들어 평균의 표준 편차 (s_m)는 s/sqrt (n)입니다. 귀하의 예제에서와 같이 n = 4 일 경우 평균은 데이터 자체의 50 %까지만 정확합니다. 이러한 상황에서 MAD와 Median은보다 강력합니다. 또한 s와 mean을 사용하면 시간이 지남에 따라 플레이어의 해답을 정규 분포로 가정해야합니다. 이것은 게임의 설정과 인간의 의사 결정에 대한 견해에 따라 다를 수도 있고 그렇지 않을 수도 있습니다. – Timo

4

Bayesian Probablity Formula은 청구서에 부합합니까?

나는 그렇게 생각한다. 다음은 조금 덜 수학적인 사이트로 연결되는 링크입니다. http://www.experiment-resources.com/bayesian-probability.html

본질적으로 각 플레이어가 다음 라운드에서 가장 높은 점수를받을 확률을 예측합니다. 베이지안 확률이 아침에 먹는 것입니다.

베이지안 확률이 이미 video games (경고 : .doc 파일)에서 사용되고 있습니다.

+0

나는이 오류를 수정했으나 통계에 관해 말할 때 확률 = 확률을 기억한다. – nlucaroni

+0

수학 기술이 너무 복잡해 보였습니다. (의사 코드) 예제를 보여 주시겠습니까? –

1

당신은 두 가지 요소의 일종의 선형 결합을 원한다고 생각할 수도 있지만 실제 상수가 무엇인지 알기 위해 무엇을하는지 더 알 필요가 있다고 생각합니다.

+0

입력 해 주셔서 감사합니다. 내 업데이트를 확인하십시오. 더 많은 정보가 필요하면 그냥 말하십시오. –

3

흠. 이렇게하면 (10010010060) 플레이어가 (85,85,85,85) 플레이어보다 나빠질 수 있습니다. 왜 총점의 %를 고려하지 않습니까?

좋아요 : 총점 (예 : 0..1)에 현재 계산을 곱한 비율입니다.

+0

답변 해 주셔서 감사합니다. 내 업데이트를 확인하십시오. –

7

더 나은 것이 정량화되지 않은 경우 최적의 수식을 얻을 수 없습니다. 평균과의 일관성을 어떻게 측정 할 것인지 파악해야합니다. 예를 들어 한 가지 옵션은 플레이어가 주어진 비율의 게임을 치게 될 점수를 추정하는 것입니다. 이것은 선수 점수의 확률 분포의 일종의 모델을 필요로합니다. 예를 들어 플레이어 점수가 정규 분포를 따른다고 가정하면 주어진 공식은 플레이어가 시간의 약 70 %를 초과 할 점수를 계산합니다.

+0

문제는 무엇이 더 좋은지 전혀 모르겠다. 평균으로 시작했는데 편차를 도입하는 것도 좋은 생각 일 수 있다고 생각했다. 내 업데이트에서 내가 뭘하려고하는지 생각 해봐. 어쩌면 이것은 내 질문에 더 많은 통찰력을 가져다 줄 것이다. –

1

음, "단순 확장"단지 중량의 가산 및 범위이다

평균 (플레이어) - 분 (상부 중량 * entrophy (플레이어)) 그러나

, 주어진 현재 데이터 세트 인 경우 게임 당 점수 차이 을 보면서 "정답 백분율"과 관련이 없습니다. (옵션 일 경우)

2

중간 값을 사용 해본 적이 있습니까? 평균보다 평균이 robust statistic (이상 값의 영향을받지 않는 것)으로 간주됩니다. 데이터에서 0, 25, 50, 82.5, 50, 50, 100의 중간 값을 얻습니다.

직관적으로 원하는 것 같습니까? 나는 여기에 "정답"이 없다는 점을 다른 사람들과 동의한다.

+0

그런 기본적인 질문은 유감이지만 중간 값은 어떻게 결정합니까? –

+1

(google은 친구입니다!) 각 플레이어에 대해 배열을 정렬 한 다음 홀수 개의 값이 있으면 중간을 선택하고 그렇지 않으면 중간의 평균을 선택합니다. 모든 통계 라이브러리에는 중간 값 함수가 있습니다. – Harlan

관련 문제