2016-08-13 2 views
0

저는 텍스트 분류를위한 피쳐 엔지니어링을 연구하고 있습니다. 나는 기능을 선택하는 것에 집중했다. 대부분의 문학에서 텍스트를 토큰 화하고 기능으로 사용합니다 (정지 단어, 문장 부호 제외). 그러나 폐암이나 구문과 같은 여러 단어로 나눠 씁니다. 그렇다면 문제는 ngram 순서를 결정하고이를 기능으로 처리하는 방법입니다.피규어 엔지니어링을위한 Ngram 주문 선택

답변

0

관련 2g (이 경우 폐암)이 빈도로 표시됩니다.

내가 폐암이있는 사람을 알고 : 폐암이 무서운 질병입니다
다음과 같은 텍스트를 상상해보십시오. 2-gram vs Frequency

당신이 먼저 폐암 겁니다 2 그램의 목록을 작성하는 경우

; 및 다른 조합 ('폐를가집니다', '증오 폐') 등이 있습니다.
단어의 특정 그룹은 무엇인가를 나타내고 반복적으로 호출되기 때문에 다른 그룹은 단지 2 그램의 '환경 적'을 형성하는 커넥터 ('has'또는 'hate') 일 뿐이 기 때문입니다. 열쇠는 주파수로 필터링하는 것입니다.

n 그램을 생성하는 데 문제가있는 경우 잘못된 라이브러리/도구 모음을 사용하고있는 것 같습니다.