2014-06-13 1 views
-1

누가 Google의 bigquery 테이블을 통해 텍스트 클러스터링을 실행할 사람을 알고 있습니까? 일부 작은 데이터 세트 (2k 행, 단일 열)를 통해 nltk를 사용하려고 시도했지만 영원히 (쿼드 코어, 8GB 컴퓨터, Linux에서 99 % CPU) 소요되는 것으로 보입니다.Bigquery - 텍스트 클러스터링

감사합니다.

+1

nltk.what? 1msec, 5msec, 몇 시간 동안 99 % CPU? 귀하의 질문은 광범위하게 underspecified입니다 (그리고 나는 그것이 대답을 끌고 놀랐어요) –

답변

2

이미 Google 클라우드 도구를 사용 중이므로 Google Prediction API을 살펴볼 가치가 있습니다. 개인적으로 사용하지는 않았지만 처리 할 수있는 데이터 세트의 크기에 관해 좋은 소식을 들었습니다. 당신은 파이썬 라이브러리 언급 한 이후

- 데이터를 가져 오기위한 팬더를 포함 PyData 도구를 사용하는 (또한 데이터 세트의 크기에 의해 제한 될 수 있습니다) 또 다른 옵션입니다 (Pandas.io.read_bq 볼)과에 패키지를 Scikit는 배우기 클러스터링 알고리즘을 실행하십시오. 내장 된 속도에 대한 최적화가 꽤 있습니다.

+0

고마워! 나는 그것에게 시도를 줄 것이고, 그것이 어떻게 가는지에 관해 당신에게 알릴 것이다.. – garamirez