2016-10-03 4 views
6

Convolution Neural Network에 대한 입력을 포함하는 것에 대해 연구 중이며 Word2vec를 이해합니다. 그러나 CNN text classification에 있습니다. dennybritz는 함수 learn.preprocessing.VocabularyProcessor을 사용했습니다. document. 그들은 문서를 단어 ID 시퀀스에 매핑한다고 말했습니다. 이 기능이 어떻게 작동하는지 잘 모르겠습니다. Ids 목록을 작성한 다음 Id를 단어로 맵핑합니까? 아니면 단어 사전과 ID를 가지고 있습니까?어휘 처리기 기능

답변

15

두 개의 문서 I like pizzaI like Pasta 만 있다고 가정 해 보겠습니다. 귀하의 전체 어휘는 다음 단어들로 구성됩니다. (I, like, pizza, pasta) 어휘의 모든 단어에 대해 이렇게 연관된 색인이 있습니다 (1, 2, 3, 4). 이제 I like pasta과 같은 문서가 주어지면 벡터 [1, 2, 4]로 변환 할 수 있습니다. 이것이 learn.preprocessing.VocabularyProcessor의 기능입니다. 매개 변수 max_document_length는 길이가 max_document_length보다 짧은하고 클리핑 경우 그 길이이 당신에게

+0

감사 쉬얍을하는 데 도움이 이상 max_document_length 희망하는 경우 모든 문서 중 하나 패딩 번호로 길이 max_document_length의 벡터로 표현되어 있는지 확인합니다, 그래서 그것은 문서를 벡터 공간으로 만 인코딩합니다. Natural Language Processing에 이름이 있습니까? – ngoduyvu

+0

@ngoduyvu 내가 아는 한 아무 것도 없음 ... 이것은 자연어 처리 시스템의 대부분에서 수행되는 전처리 단계 중 하나입니다. – Kashyap

+0

max_document_length는 고유 한 단어의 수 여야합니다. – zsong