1

웹 사이트 사용자로부터 지리적 정보를 수집하고 싶습니다. 주어진 데이터 세트에 대해 장소에 속성이 있는지 여부를 나타내는 확인란을 표시합니다. 전체 통합 데이터 세트 (및 기타 정보)를 기반으로 사기 또는 스팸 제출을 탐지하기위한 도구/프레임 워크가 있습니까? 필터링되고 안정적인 데이터를 얻고 싶습니다. 이러한 문제를 다루는 여러 학술 논문이있다Crowdsourcing 신뢰성 측정 - 스팸/사기 탐지

: 그건 당신이 요구하고 있지만 여기에 아마존 터크를 사용하여 내 경험에서 몇 가지 팁이 정확히 무엇인지

+0

, 희망이 도움이. 그러한 것에 관심이 있습니까? 아니면 직접 할 방법에 대한 조언을 원하십니까? – etov

+0

@etov - 사기 투표가 사소하고 통계적으로 구별 될 수 있다고 가정 할 때 수집 된 투표에서 "진실"을 추출하는 것에 대해 생각합니다. – tomash

답변

2

확실하지. here은 좋은 것입니다. 또한 다음과 같은 일반적인 권장 사항을 기반으로 데이터를 처리하는 사용자 지정 프로 시저를 만들었습니다.

a. 열려있는 질문을 포함하고 응답하지 않은 경우를 필터링하십시오. 이러한 질문에 자동으로 대답하는 것이 더 힘들며 사기범에게는 시간이 많이 걸리고 덜 매력적일 수 있습니다.

b. 가능하면 2 진 척도 (즉, 체크 박스)를 사용하지 말고 약간의 등급 (예 : 1-4 또는 1-6)을 사용하십시오. 이렇게하면 더 많은 데이터를 사용할 수 있습니다.

c. 가능한 경우 양식을 작성하는 데 소요 된 시간이 너무 짧은 경우를 필터링하십시오. (열린 질문을 포함 시키면 특히 유용합니다)

d. 사용자 당 입력의 다중성이있는 경우 반복적 인 응답을 확인하고 평균 이상으로 일관되게 응답하는 사용자에게 확인하십시오. 각 사용자가 하나의 "양식"만 제출하는 경우 하나 이상의 요소/질문을 입력하면 사용자 당 여러 개의 제출이 이루어집니다.

e. 사용자 당 사용자 제출 또는 사용자 ID가 하나만있는 경우 옵션이 더 제한됩니다. 충분한 데이터가있는 경우를 대비하여 outliars (예 : 평균에서 3 표준 편차보다 먼 데이터 포인트)를 필터링하는 것이 좋습니다.

f. 모든 필터링을 마친 후 데이터의 합의 또는 불일치를 확인하십시오 (예 : 평균 x 표준 편차에 해당하는 데이터 요소 비율 확인). 합의가있을 경우 평균을 사용하십시오. 불일치하는 경우에는 더 많은 데이터를 수집하십시오.

아마존 기계 터크와 같은 기존의 크라우드 소싱 도구, (대부분이, BTW, 비 무료)에 대한 몇 가지 서비스/툴/프레임 워크가 있습니다

+0

사용자 지정 데이터 수집 및 필터링 (MTurk을 사용하지 않음)에 대해 생각하고 있었지만 모든 조언 또한 매우 중요합니다. – tomash