내 Twitter 자료실을 다운로드했으며 가장 많이 이야기 한 사람에 대한 분석을 시도하고 있습니다.팬더의 'findall'결과 목록을 여러 항목으로 나눠서 유니크로 그룹화합니다.
트윗 CSV 열은 다음과 같이 :
tweet_id,in_reply_to_status_id,in_reply_to_user_id,retweeted_status_id,retweeted_status_user_id,timestamp,source
내가 사용했습니다 read_csv는() "inData의"라는 dataframe에 tweets.csv 파일을 가져올 수 있습니다.
그런 다음, 트윗에 언급 된 모든 @handles의 목록을 얻으려면, 나는 다음을 사용 :
handles = indata['text'].str.findall('@[a-zA-Z0-9_-]*')
결과 : 내가 할 수 있도록하고 싶습니다 무엇
timestamp
...
2013-04-12 11:24:27 [@danbarker]
2013-04-12 11:22:32 [@SeekTom]
2013-04-12 10:50:45 [@33Digital, @HotwirePR, @kobygeddes, @]
2013-04-12 08:00:03 [@mccandelish]
2013-04-12 07:59:01 [@Mumbrella]
...
Name: text, dtype: object
나는 개인의 손잡이와 날짜별로 그룹으로, 내가 지난 몇 년 동안 가장 많이 말한 사람의 수를 보여줍니다.
제안 사항?
정말 포괄적 인 답변, Andy에게 감사드립니다. 팬더 네이티브 방식은 저에게 효과적입니다. 타임 스탬프를 유지하여 날짜별로 그룹화 할 수있는 아이디어가 마음에 듭니다.하지만 저를 컬렉션에 소개해 주셔서 감사합니다. –