2017-03-31 7 views
0

큰 트위터 데이터 세트로 작업 중입니다. 시간 열을 사용하여 단어 열과 시간을 그룹화하려고 시도 중입니다. 히스토그램으로 표시하여 시간 경과에 따라 단어가 어떻게 바뀌는 지 볼 수 있습니다 (단어 분포 시간이 지남에 따라). 아무도 내가 R로 어떻게이 일을 할 수 있는지 궁금해했다.단어를 세는 방법과 시간을 기준으로 그룹화하는 방법?

데이터의 샘플은이 링크를 통해 액세스 할 수 있습니다 : https://docs.google.com/spreadsheets/d/1JhXEyzkjPs59hVgoS3lW7e0Fcumis62QDUvuMP2q5aQ/edit?usp=sharing

감사합니다, 제임스

+0

지금까지 시도한 기능과 작동하지 않은 이유는 무엇입니까? 그래서 다른 사람들이 당신을 위해 모든 일을하도록하는 길은 아닙니다. – vincentmajor

+0

'dplyr'과'lubridate' 패키지를 살펴보십시오. – vincentmajor

답변

0

R에 파일을 읽고, (난 당신이 아래에있는 내 코드에 있던 X에 파일 데이터를 설정 변수를 가정

    Time  Word count 
       <fctr> <fctr> <int> 
1 2015/04/30 21:59:00   a  1 
2 2015/04/30 21:59:00 baltimore  1 
3 2015/04/30 21:59:00  check  1 
4 2015/04/30 21:59:00 common  1 
5 2015/04/30 21:59:00 grabbed  1 
6 2015/04/30 21:59:00  have  1 
7 2015/04/30 21:59:00  her  1 
,369 :

require(dplyr) 
x%>%group_by(Time, Word)%>% 
    summarise(count=n()) 

그것은 다음과 같은 출력을 반환) 다음 사용

데이터 테이블 또는 데이터 프레임에서 캡처 할 수있는 항목

+0

요청한대로 시간 단위로 그룹화하지 않습니다. – vincentmajor

+0

시간 부분을 놓쳤습니다. – sconfluentus

+0

'%> % group_by (형식 (시간, % H), 단어) %> %'를 사용하십시오. format (Time, % H)은 datatime 객체를 단지 한 시간의 문자열로 변환합니다. – Dave2e

관련 문제