2017-03-23 1 views
3

H2O가 최근에 API에 word2vec를 추가했습니다. 자신이 제공하는 코퍼스에서 자신의 단어 벡터를 쉽게 훈련 할 수 있다는 것은 대단한 것입니다.h2o word2vec에서 사용할 수있는 사전 벡터를 제공합니까?

큰 데이터와 대형 컴퓨터를 사용하면 Google이나 H2O.ai와 같은 소프트웨어 공급 업체가 H2O의 많은 최종 사용자는 아니지만 네트워크 대역폭으로 인해 액세스 할 수있는 유형의 큰 가능성이 있습니다. 전력 제한을 계산하십시오.

단어 삽입은 감독되지 않은 학습 유형으로 볼 수 있습니다. 따라서 특정 응용 프로그램의 인프라로서 매우 큰 코퍼스에 구축 된 사전 학습 된 단어 벡터를 사용하여 데이터 과학 파이프 라인에서 큰 가치를 얻을 수 있습니다. 범용 사전 학습 된 단어 벡터를 사용하는 것은 이전 학습의 한 형태로 볼 수 있습니다. 단어 벡터를 재사용하는 것은 컴퓨터 비전과 유사합니다. 사진에서 가장자리를 감지하는 법을 배우는 일반적인 최하위 계층입니다. 상위 레이어는 그 아래에있는 가장자리 레이어로 구성된 특정 종류의 객체를 감지합니다.

예를 들어 Google은 word2vec 패키지와 함께 일부 사전 학습 된 단어 벡터를 제공합니다. 더 많은 예를 들면 자율 학습을하는 것이 더 좋습니다. 또한 개별 데이터 과학자가 자신의 단어 벡터를 훈련시키는 텍스트의 거대한 코퍼스를 다운로드하는 것은 실제적으로 어렵습니다. 그리고 위키 피 디아 (wikipedia)와 같은 범용 코퍼스 (corpi) (corpi?)에서 단어 벡터를 직접 훈련하여 모든 사용자가 동일한 바퀴를 다시 만들 수있는 좋은 이유는 없습니다.

단어 임베딩은 매우 중요하며 가능한 응용 프로그램의 은하계의 벽돌과 박격포가 될 가능성이 있습니다. 많은 자연 언어 데이터 과학 응용 프로그램의 오래된 기반 인 TF-IDF는 대신 단어 삽입을 사용하여 폐기되었습니다.

세 가지 질문 :

1 - H2O는 현재 어떤 일반적인 법적 또는 기타 공공 소유 (정부) 웹 사이트에서 찾을 텍스트에 대한 교육을 예를 들어 pretrained 목적 단어 묻어 (워드 벡터), 또는 위키 피 디아 또는 트위터를 제공 하는가 또는 craigslist, 또는 인간이 작성한 텍스트의 다른 무료 또는 공개 공유 소스?

2 - H2O 사용자가 의학이나 법률과 같은보다 전문화 된 자료를 바탕으로 훈련 된 word2vec 단어 벡터를 공유 할 수있는 커뮤니티 사이트가 있습니까?

3 - word2vec 패키지에서 Google의 사전 설정된 단어 벡터를 가져올 수 있습니까?

답변

2

질문 해 주셔서 감사합니다.

맞춤 설정 모델이 필요없고 사전 훈련 된 모델이 잘 작동하는 경우가 많이 있습니다. 사람들이 주로 특정 도메인의 작은 문제에 대해 자체 모델을 만들고 미리 훈련 된 모델을 사용하여 사용자 지정 모델을 보완한다고 가정합니다.

CSV와 같은 형식 인 경우 제 3 자의 사전 훈련 된 모델을 H2O로 가져올 수 있습니다. 사용 가능한 많은 GloVe 모델에 해당됩니다.

프레임 (다른 모든 데이터 세트와 같은)로 그 가져 오기 모델을 수행합니다

w2v.frame <- h2o.importFile("pretrained.glove.txt") 

그리고 정기적 H2O word2vec 모델로 변환 :

w2v.model <- h2o.word2vec(pre_trained = w2v.frame, vec_size = 100) 

있습니다 당신은 embeddings의 크기를 제공해야합니다.

내가 아는 한 w2v 모델에 대한 모델 교환/모델 시장을 제공 할 계획이 없습니다. 온라인에서 사용 가능한 모델을 사용할 수 있습니다. https://github.com/3Top/word2vec-api

Google의 바이너리 형식의 단어 임베딩 가져 오기는 현재 지원되지 않지만 사용자를 위해 많은 도움이되는 로드맵에 지원됩니다.

+0

도움이되는 답변에 감사드립니다. –

관련 문제