2016-09-19 2 views
1

나는 트위터의 주제 모델링을 사용하여 무식한 트위터 사용자의 프로파일을 정의합니다. Gensim 모듈을 사용하여 LDA 모델을 생성합니다. 제 질문은 좋은 입력 데이터를 선택하는 것입니다. 특정 사용자에게 할당 할 주제를 생성하고 싶습니다. 질문은 입력 데이터에 관한 것입니다. 이제는 다른 카테고리의 사용자 (스포츠, IT, 정치 등)를 선택하고 모델에 트윗을 올리는 감독 된 방법을 사용하고 있지만 매우 효율적이고 효과적이지는 않습니다.파이썬에서 올바른 입력 데이터를 사용하여 Twitter의 좋은 LDA 모델 생성하기

전체 트위터의 의미있는 주제를 생성하는 좋은 방법은 무엇입니까?

+1

주제 모델링의 주제가 레이블 또는 분류 태스크의 클래스와 다른 점에 유의하십시오. 사용하는 용어를 잘 이해하고 질문에 대해 다시 생각해보십시오. 너는 무엇을 알고 싶니? – jknappen

답변

0

소셜 미디어 회사에서 일하면서 사용했던 프로파일 링입니다. "스포츠"추종자의 프로필을 작성한다고 가정 해 보겠습니다. 먼저 Twitter API를 사용하여 유명한 스포츠 핸들러의 모든 팔로어 (예 : "ESPN")를 다운로드합니다. 다음과 같습니다

 "ESPN": 51879246, #These are IDs who follow ESPN 
       2361734293, 
       778094964, 
       23000618, 
       2828513313, 
       2687406674, 
       2402689721, 
       2209802017, 

그런 다음 당신은 또한 모든 51879246, 2361734293...은 다음과 같은 것을 처리하는 다운로드합니다. 그 "화제"는 너의 특징 일 것이다.

이제 함수 수 * 추종자 수와 동일한 크기의 행렬 X를 만 들면됩니다. 그 다음 추종자가 귀하의 기능 사전에서 특정 주제 (기능)를 따를 때마다 Matrix에 1로 채우기 시작하십시오.

다음은 간단한 2 행으로 재생을 시작합니다.

model = lda.LDA(n_topics=5, n_iter=1000, random_state=1) 
model.fit(X) 
관련 문제