2014-04-23 2 views
0

내가 그들을 클러스터 하나 개 이상의 라벨로 각각의 레이블을 지정할이사용 sklearn 또는 기존 모듈은

[ 
    'The actor in New York. The art of Static.', 
    'The actor in New York. Sword.', 
    'The actor in New York. Handsome Jonny Deep.', 
    'France, the greast tower. In Las Vegas, the great hotel.', 
    'Empire State Building. This night is great!', 
    'Empire State Building wow! This night is so so so so great!', 
    'The light of life. Make you think of the future ans the love.', 
    'The light of street. Make you consider that where is my road tomorrow?', 
    'A scrolled cat palying on the ground. cute', 
    'A surprised woman in a dark raining day.', 
    'The sunshine makes the cat wants to sleep.', 
    'Three in one image that a cat is smelling the flower.', 
    'A woman with smile is looking at the falling leaves.', 
    'A headshot of a fat squirrel.', 
    'A headshot of a yellow cat.', 
    'A cat runs on the snow and jumps very high.', 
    'A dog grovals on the falling leaves and looks at camera.', 
    'One cat stares at the camera, another is looking around.', 
    'A dog with long tongue plays on the grass.' 
    'A sad dog wants to see the world outside the house.' 
    ] 

같은 데이터가 텍스트가 각 클러스터는 다중 레벨에 속하도록 클러스터입니다. 기존 도구를 사용할 수 있습니까? 나 혼자서 구현할 충분한 시간이 없다. 정말 고맙습니다!!

+0

클러스터의 의미에 대한 자세한 내용을 제공해야합니다. 그건 꽤 모호한 의미가 있습니다. 예제 출력을 제공 할 수 있습니까? – mason

+0

나는 gensim을 살펴볼 것을 제안한다 : http://radimrehurek.com/gensim/ – Matt

+0

클러스터는 무엇이 필요합니까? –

답변

0

당신은 gensim를 사용하려고 할 수 있습니다 http://radimrehurek.com/gensim/

당신은 LDA, 당신에게 당신의 문서 (구) 각각에 대한 태그 (주제)의 분포를 줄 수있는 방법을 사용할 수 있습니다. 그런 다음 주제를 배포하는 방법 (예 : K-Means)을 기반으로 클러스터링하는 방법을 사용할 수 있습니다. http://radimrehurek.com/gensim/models/ldamodel.html

을 그리고 당신은 sklearn에서 K-수단 방법을 사용

봐 주시기 바랍니다.