2017-03-03 3 views
1

나는 word2vec의 C 버전 (https://code.google.com/archive/p/word2vec/에 있음)을 사용하고 있으며 독일어 버전의 Wikipedia (약 17GB 원시 텍스트, ~ 1.4B 단어)의 필터링 된 덤프에 대해 교육하고 있습니다. 나는 다음과 같은 설정을 사용하고 있습니다 :독일어 위키 백과에 대한 Word2vec C++ 교육

-cbow 1 -size 300 -window 5 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15 -min-count 1000

결과 출력 파일 ~ 5 만 단어를 포함하고, 그러나 그들 중 누구도, ä ö, ü 또는 ß을 문자를 포함하지 않습니다. 나는 word2vec가 그 글자로 된 단어를 포함하는 작은 코퍼스를 만들어서 처리 할 수 ​​있다는 것을 확인했으며, 출력물에 나타났습니다.

이러한 문자가 포함 된 단어가 출력 파일에 나타나지 않는 원인은 무엇입니까? 그것은 어떻게 든 코퍼스의 큰 크기 또는 내가 사용하고있는 설정과 관련이 있습니까?

답변

0

코퍼스 크기와 관련이 없어야합니다. 필자는 Wikipedia 덤프와 독일어 뉴스 기사 (어휘의 600k 단어)에서 비슷한 설정으로 독일어 모델 (아래 링크 참조)을 훈련 시켰고 독일어 움라우트가있는 단어에 대한 단어 벡터도 생성했습니다. 당신이 할 수있는

것들 :

  • 확인 모음에 파일의 문자 인코딩뿐만 아니라 UTF-8
  • 이 (각각의 음절 토큰에 움라우트를 변환하여이 문제를 방지 할 수있는 훈련 환경 ä → AE, 전처리에서의 SS의 → SS 등)
  • 체크 아웃 word2vec는 독일 코퍼스에 도포 this project (그러나 gensim으로하여 구현 C)
관련 문제