질문은 간단합니다. CBOW & 스킵 그램 중 어느 것이 큰 데이터 세트에서 더 잘 작동합니까? (그리고 작은 데이터 세트에 대한 답은 다음과 같습니다.)word2vec : CBOW & skip-gram 성능 wrt 훈련 데이터 세트 크기
내가
건너 뛰기 그램 [Link]이 Mikolov 자신에 의해, 이후 혼란 스러워요 : 학습 데이터의 소량 잘 작동 아니라도 드문 나타냅니다 단어 또는 문구.
CBOW : 빠르게 여러 번[Link] CBOW이 많은 이상 부드럽게, 구글 TensorFlow에 따르면, 자주 단어
의 스킵 그램, 약간 더 나은 정확도보다 훈련 만합니다 분포 정보 (하나의 관찰로서 전체 문맥을 다룸으로써). 대부분 작은 데이터 세트의 경우 유용합니다.
그러나 skip-gram은 각 컨텍스트 - 대상 쌍을 새로운 관찰로 처리하며 큰 데이터 집합이있을 때 더 잘 수행되는 경향이 있습니다. 이 튜토리얼의 나머지 부분에서는 skip-gram 모델에 초점을 맞출 것이다.
다음은 첫번째 생각 [Link]을 지원하는 Quora의 게시물입니다, 다음 상기 신뢰할 수있는 소스로부터 유도 될 것 --both 두 번째 생각 [Link]을 제안 다른 Quora의 게시물이 있습니다.
또는 Mikolov는 말처럼입니다 :
가 전반적으로 가장 좋은 방법은 몇 가지 실험을 시도하고 다른 응용 프로그램은 서로 다른 요구 사항을 가지고, 당신을 위해 가장 적합한 보는 것입니다.
하지만이 문제에 대한 경험적 분석적 평결이나 최종 결론은 확실합니까?