Naive Bayes Classifier를 설정하여 5 개 문자열 속성의 두 레코드 사이의 동일성을 확인하려고합니다. 각 속성 쌍 (예 : 자바 .equals() 메소드) 만 정확하게 비교합니다. TRUE와 FALSE 두 가지 교육 데이터가 있지만 TRUE 사례에만 초점을 맞추어 보겠습니다.Naive Bayes 분류 자에게 '사기성'교육 사례를 제공해야합니다.
5 가지 속성이 모두 다른 진정한 교육 사례가 있다고 가정 해 봅니다. 그것은 모든 비교 자의 실패를 의미하지만, 기록은 실제로 인간 평가 후 '동일'하다고 결정됩니다.
이 교육용 케이스를 Naive Bayes Classifier에 공급해야합니까? 한편으로는 NBC가 각 변수를 개별적으로 취급한다는 사실을 고려할 때 이러한 사례는 완전히 파기하지 않아야합니다. 그러나 이러한 사례를 충분히 섭취하는 것이 분류 자의 실적에 도움이되지는 않을 것입니다. 나는이 사건들을 많이 볼 수 있다는 것이 더 나은 비교기가 필요하다는 것을 이해하지만 당분간 무엇을 해야할지 궁금합니다. 또 다른 고려 사항은 플립 사이드가 불가능하다는 것입니다. 즉, 다섯 가지 속성이 두 레코드간에 동일 할 수 있고 여전히 다른 레코드가되도록 할 수있는 방법은 없습니다.
이것은 우선적 인 이슈입니까, 아니면 이것을 처리하는 데있어 확실한 수락이 있습니까?
학습 알고리즘은 올바른 구별을 할 수있는 경우에만 적용해야합니다. 만약 당신이 말했듯이 그 알고리즘을 탐지 할 수없는 참 (True) 경우가있다. 문제가 사람의 입력으로 인해 발생하는 경우 모든 특수 문자를 제거하고 모든 문자를 대문자 또는 소문자로 변경하여 표준화 할 수 있습니다.더 뉘앙스가있는 비교를 사용하여 일반적인 오타 또는 맞춤법 오류를 찾아 낼 수도 있습니다. –