2013-12-16 1 views
1

관심 주제와 관련된 웹 페이지의 이진 분류 작업 중입니다. 웹 페이지가 특정 카테고리에 속하는지 여부를 분류하고 싶습니다. 나는 수동으로 2 개의 카테고리 positivenegative 카테고리의 데이터 세트를 라벨링했다. 그러나 여기에서 나의 관심사는 각 범주에서 단어의 모음을 볼 때, 기능이 매우 유사하다는 것입니다. positivenegative 웹 페이지는 실제로 매우 가까이에 있습니다 (내용면에서 현명한).카테고리의 데이터가 매우 비슷한 웹 페이지의 이진 분류

몇 가지 추가 정보 - 콘텐츠가 영어로 표시되어 있으며 불용어 제거도 수행하고 있습니다.

어떻게이 작업을 수행 할 수 있습니까? 이 문제에 적용 할 수있는 다른 접근법이 있습니까? 감사합니다.

+1

다른 특징을 구분할 수 있습니까? 각 범주에 넣기위한 개인적인 기준은 무엇입니까? 학습 알고리즘은 좁은 분리를 "수행"할 수 있지만 많은 가양 성 및 네거티브가있을 수 있습니다. – aganders3

+0

그게 내가 지금 얻고있는 것이지 .. 많은 거짓 긍정. 웹 페이지는 전문가가 각 범주에 넣었지만 주로 특정 주제에 관해 말하면 안됩니다. 나의 경우, 부정적인 웹 페이지는 주로 긍정적 인 웹 페이지로 페이지를 전달하고 있습니다. 나는 현재 두 범주를 분리 할 수있는 것을 찾기 위해 깊이 파고 들고있다. – y2p

+0

또한 내 관심사의 주제로 제한된 페이지를 긁어 모으고 있는데, 이것은 이미 소음을 상당히 제한하고 있습니다. – y2p

답변

1

단일 단어 (단어 쌍) 대신 연속 단어 쌍을 사용할 수 있습니다. 희망은 그 단어 쌍이 당신이 생각하고있는 개념을 더 잘 포착 할 수 있다는 것입니다. 다음에 단어의 삼자가 올 수 있습니다. 문제는 차원 성이 실제로 높아진다는 것입니다 (N^2). 당신이 그것을 감당할 수 없다면 아이디어를 사용하여 해싱 트릭을 (임의의 투영/해싱에 대한 문학을 확인하십시오) 단어 쌍에 차원을 묶어.

관련 문제