관심 주제와 관련된 웹 페이지의 이진 분류 작업 중입니다. 웹 페이지가 특정 카테고리에 속하는지 여부를 분류하고 싶습니다. 나는 수동으로 2 개의 카테고리 positive
과 negative
카테고리의 데이터 세트를 라벨링했다. 그러나 여기에서 나의 관심사는 각 범주에서 단어의 모음을 볼 때, 기능이 매우 유사하다는 것입니다. positive
및 negative
웹 페이지는 실제로 매우 가까이에 있습니다 (내용면에서 현명한).카테고리의 데이터가 매우 비슷한 웹 페이지의 이진 분류
몇 가지 추가 정보 - 콘텐츠가 영어로 표시되어 있으며 불용어 제거도 수행하고 있습니다.
어떻게이 작업을 수행 할 수 있습니까? 이 문제에 적용 할 수있는 다른 접근법이 있습니까? 감사합니다.
다른 특징을 구분할 수 있습니까? 각 범주에 넣기위한 개인적인 기준은 무엇입니까? 학습 알고리즘은 좁은 분리를 "수행"할 수 있지만 많은 가양 성 및 네거티브가있을 수 있습니다. – aganders3
그게 내가 지금 얻고있는 것이지 .. 많은 거짓 긍정. 웹 페이지는 전문가가 각 범주에 넣었지만 주로 특정 주제에 관해 말하면 안됩니다. 나의 경우, 부정적인 웹 페이지는 주로 긍정적 인 웹 페이지로 페이지를 전달하고 있습니다. 나는 현재 두 범주를 분리 할 수있는 것을 찾기 위해 깊이 파고 들고있다. – y2p
또한 내 관심사의 주제로 제한된 페이지를 긁어 모으고 있는데, 이것은 이미 소음을 상당히 제한하고 있습니다. – y2p