누가 Google의 bigquery 테이블을 통해 텍스트 클러스터링을 실행할 사람을 알고 있습니까? 일부 작은 데이터 세트 (2k 행, 단일 열)를 통해 nltk를 사용하려고 시도했지만 영원히 (쿼드 코어, 8GB 컴퓨터, Linux에서 99 % CPU) 소요되는 것으로 보입니다.Bigquery - 텍스트 클러스터링
감사합니다.
누가 Google의 bigquery 테이블을 통해 텍스트 클러스터링을 실행할 사람을 알고 있습니까? 일부 작은 데이터 세트 (2k 행, 단일 열)를 통해 nltk를 사용하려고 시도했지만 영원히 (쿼드 코어, 8GB 컴퓨터, Linux에서 99 % CPU) 소요되는 것으로 보입니다.Bigquery - 텍스트 클러스터링
감사합니다.
이미 Google 클라우드 도구를 사용 중이므로 Google Prediction API을 살펴볼 가치가 있습니다. 개인적으로 사용하지는 않았지만 처리 할 수있는 데이터 세트의 크기에 관해 좋은 소식을 들었습니다. 당신은 파이썬 라이브러리 언급 한 이후
- 데이터를 가져 오기위한 팬더를 포함 PyData 도구를 사용하는 (또한 데이터 세트의 크기에 의해 제한 될 수 있습니다) 또 다른 옵션입니다 (Pandas.io.read_bq
볼)과에 패키지를 Scikit는 배우기 클러스터링 알고리즘을 실행하십시오. 내장 된 속도에 대한 최적화가 꽤 있습니다.
고마워! 나는 그것에게 시도를 줄 것이고, 그것이 어떻게 가는지에 관해 당신에게 알릴 것이다.. – garamirez
nltk.what? 1msec, 5msec, 몇 시간 동안 99 % CPU? 귀하의 질문은 광범위하게 underspecified입니다 (그리고 나는 그것이 대답을 끌고 놀랐어요) –