어휘 처리기 기능

Convolution Neural Network에 대한 입력을 포함하는 것에 대해 연구 중이며 Word2vec를 이해합니다. 그러나 CNN text classification에 있습니다. dennybritz는 함수 learn.preprocessing.VocabularyProcessor을 사용했습니다. document. 그들은 문서를 단어 ID 시퀀스에 매핑한다고 말했습니다. 이 기능이 어떻게 작동하는지 잘 모르겠습니다. Ids 목록을 작성한 다음 Id를 단어로 맵핑합니까? 아니면 단어 사전과 ID를 가지고 있습니까?어휘 처리기 기능

출처

2016-10-03 ngoduyvu

두 개의 문서 I like pizza 및 I like Pasta 만 있다고 가정 해 보겠습니다. 귀하의 전체 어휘는 다음 단어들로 구성됩니다. (I, like, pizza, pasta) 어휘의 모든 단어에 대해 이렇게 연관된 색인이 있습니다 (1, 2, 3, 4). 이제 I like pasta과 같은 문서가 주어지면 벡터 [1, 2, 4]로 변환 할 수 있습니다. 이것이 learn.preprocessing.VocabularyProcessor의 기능입니다. 매개 변수 max_document_length는 길이가 max_document_length보다 짧은하고 클리핑 경우 그 길이이 당신에게

출처

2016-10-03 07:20:43 Kashyap

감사 쉬얍을하는 데 도움이 이상 max_document_length 희망하는 경우 모든 문서 중 하나 패딩 번호로 길이 max_document_length의 벡터로 표현되어 있는지 확인합니다, 그래서 그것은 문서를 벡터 공간으로 만 인코딩합니다. Natural Language Processing에 이름이 있습니까? – ngoduyvu

@ngoduyvu 내가 아는 한 아무 것도 없음 ... 이것은 자연어 처리 시스템의 대부분에서 수행되는 전처리 단계 중 하나입니다. – Kashyap

max_document_length는 고유 한 단어의 수 여야합니다. – zsong

어휘 처리기 기능

답변

관련 문제