원시 트위터 데이터 세트 (약 1GB의 텍스트 파일)를 사전 처리해야합니다. 사전 처리 (중지 단어, 특수 기호, URL 제거 포함)에서 lucene을 사용하여 인덱싱을 수행합니다.트위터 데이터 전처리/위생 처리
트윗을 살균하는 가장 좋은 방법을 제안 해주세요.
60730027 6298443824 thank you echo park. you've changed A LOT, but as long as I'm getting paid to make you move, I'm still with it! 2009-12-03 02:54:10
60730027 6297282530 fat Albert Einstein goin in right now over here!!! 2009-12-03 01:35:22
60730027 6283122724 SATURDAY NIGHT AT THE TAVERN: http://yfrog.com/4aka3cj 2009-12-02 16:21:40
60730027 6283105517 FRIDAY NIGHT AT THE GRIFFIN: http://yfrog.com/3glqzj 2009-12-02 16:21:04
첫번째 열 번호는 사용자의 위치에 대응한다 : 여기서
데이터의 샘플이다. 그러나 두 번째 열 번호가 무엇인지에 대해서는 확신 할 수 없습니다. 데이터를 살균, 나는이 정지 문자, 도시 이름으로 사용자 위치 코드를 교체 타임 스탬프를 제거, 제거하는 것 등URL은 그것에 대해 이동하는 방법을 제안 해주십시오.
미리 감사드립니다.
명료성을 위해 몇 가지 예제 데이터를 공유합니다 (이들은 추측 할 수있는 json입니다). 그리고 귀하의 계획은 무엇입니까? 그렇지 않으면 의견이있을 경우에만 답변을받습니다. – blackSmith
안녕하세요 @blackSmith, 업데이트했습니다. – Saurabh
'사용자 위치 코드'는 몇 개까지 가능합니까? 6E8의 순서로? – blackSmith