나는 페이지를 분류하기 위해 노력하고 있는데, 특히 단어의 모음, 페이지 레이아웃을 기반으로하는 문서에서 페이지를 검색하거나, 테이블을 포함하는지 여부, 대담한 제목 등이 있습니다.이 전제로 나는 pandas.DataFrame
을 이렇게 만들었습니다. 각 문서 :이 변수를 사용하여 문서 분류에 어떤 분류 알고리즘을 사용해야합니까?
page totalCharCount matchesOfWordX matchesOfWordY hasFeaturesX hasFeaturesY hasTable score 0 0.0 608.0 0.0 2.0 0.0 0.0 0.0 0.0 1 1.0 3292.0 1.0 24.0 7.0 0.0 0.0 0.0 2 2.0 3302.0 0.0 15.0 1.0 0.0 1.0 0.0 3 3.0 26.0 0.0 0.0 0.0 1.0 1.0 1.0 4 4.0 1851.0 3.0 25.0 20.0 7.0 0.0 0.0 5 5.0 2159.0 0.0 27.0 6.0 0.0 0.0 0.0 6 6.0 1906.0 0.0 9.0 15.0 3.0 0.0 0.0 7 7.0 1825.0 0.0 24.0 9.0 0.0 0.0 0.0 8 8.0 2053.0 0.0 20.0 10.0 2.0 0.0 0.0 9 9.0 2082.0 2.0 16.0 3.0 2.0 0.0 0.0 10 10.0 2206.0 0.0 30.0 1.0 0.0 0.0 0.0 11 11.0 1746.0 3.0 31.0 3.0 0.0 0.0 0.0 12 12.0 1759.0 0.0 38.0 3.0 1.0 0.0 0.0 13 13.0 1790.0 0.0 21.0 0.0 0.0 0.0 0.0 14 14.0 1759.0 0.0 11.0 6.0 0.0 0.0 0.0 15 15.0 1539.0 0.0 20.0 3.0 0.0 0.0 0.0 16 16.0 1891.0 0.0 13.0 6.0 1.0 0.0 0.0 17 17.0 1101.0 0.0 4.0 0.0 1.0 0.0 0.0 18 18.0 2247.0 0.0 16.0 5.0 5.0 0.0 0.0 19 19.0 598.0 2.0 3.0 1.0 1.0 0.0 0.0 20 20.0 1014.0 2.0 1.0 16.0 3.0 0.0 0.0 21 21.0 337.0 1.0 2.0 1.0 1.0 0.0 0.0 22 22.0 258.0 0.0 0.0 0.0 0.0 0.0 0.0
나는 나이브 베이 즈 및 SVM 알고리즘을 살펴 본다거야하지만 난 하나가 문제를 더 잘 맞는 확실하지 않다. 변수는 독립적입니다. 그 중 일부는 점수를 높이기 위해 존재해야하며, 그 중 일부는 totalCharCount
과 같이 반대 문서 빈도와 일치합니다.
어떤 도움이 필요합니까?
고맙습니다.
열 점수는 내가 예측하려고하는 것입니다. 값은 0 또는 1 일 수 있으며, 찾으려고하는 페이지와 일치 할 수 있습니다. 나는 그 지위를 편집했다.로지스틱 회귀 알고리즘에 대해 살펴 보겠습니다. 플로리안에게 감사의 말을 전합니다! – rePack