H2O가 최근에 API에 word2vec를 추가했습니다. 자신이 제공하는 코퍼스에서 자신의 단어 벡터를 쉽게 훈련 할 수 있다는 것은 대단한 것입니다.h2o word2vec에서 사용할 수있는 사전 벡터를 제공합니까?
큰 데이터와 대형 컴퓨터를 사용하면 Google이나 H2O.ai와 같은 소프트웨어 공급 업체가 H2O의 많은 최종 사용자는 아니지만 네트워크 대역폭으로 인해 액세스 할 수있는 유형의 큰 가능성이 있습니다. 전력 제한을 계산하십시오.
단어 삽입은 감독되지 않은 학습 유형으로 볼 수 있습니다. 따라서 특정 응용 프로그램의 인프라로서 매우 큰 코퍼스에 구축 된 사전 학습 된 단어 벡터를 사용하여 데이터 과학 파이프 라인에서 큰 가치를 얻을 수 있습니다. 범용 사전 학습 된 단어 벡터를 사용하는 것은 이전 학습의 한 형태로 볼 수 있습니다. 단어 벡터를 재사용하는 것은 컴퓨터 비전과 유사합니다. 사진에서 가장자리를 감지하는 법을 배우는 일반적인 최하위 계층입니다. 상위 레이어는 그 아래에있는 가장자리 레이어로 구성된 특정 종류의 객체를 감지합니다.
예를 들어 Google은 word2vec 패키지와 함께 일부 사전 학습 된 단어 벡터를 제공합니다. 더 많은 예를 들면 자율 학습을하는 것이 더 좋습니다. 또한 개별 데이터 과학자가 자신의 단어 벡터를 훈련시키는 텍스트의 거대한 코퍼스를 다운로드하는 것은 실제적으로 어렵습니다. 그리고 위키 피 디아 (wikipedia)와 같은 범용 코퍼스 (corpi) (corpi?)에서 단어 벡터를 직접 훈련하여 모든 사용자가 동일한 바퀴를 다시 만들 수있는 좋은 이유는 없습니다.
단어 임베딩은 매우 중요하며 가능한 응용 프로그램의 은하계의 벽돌과 박격포가 될 가능성이 있습니다. 많은 자연 언어 데이터 과학 응용 프로그램의 오래된 기반 인 TF-IDF는 대신 단어 삽입을 사용하여 폐기되었습니다.
세 가지 질문 :
1 - H2O는 현재 어떤 일반적인 법적 또는 기타 공공 소유 (정부) 웹 사이트에서 찾을 텍스트에 대한 교육을 예를 들어 pretrained 목적 단어 묻어 (워드 벡터), 또는 위키 피 디아 또는 트위터를 제공 하는가 또는 craigslist, 또는 인간이 작성한 텍스트의 다른 무료 또는 공개 공유 소스?
2 - H2O 사용자가 의학이나 법률과 같은보다 전문화 된 자료를 바탕으로 훈련 된 word2vec 단어 벡터를 공유 할 수있는 커뮤니티 사이트가 있습니까?
3 - word2vec 패키지에서 Google의 사전 설정된 단어 벡터를 가져올 수 있습니까?
도움이되는 답변에 감사드립니다. –