"빅 데이터"에 대해 배우려고하고 있는데, 시작하는 유일한 방법은 바로 들어가는 것입니다. 주목할 가치는 집에있는 단일 기계를 사용한다는 것입니다. 문맥을 위해, 나는 약 300GB의 데이터를 합계 약 700 텍스트 파일이 있습니다. 각 파일에는 지난 달 트위터 소방서에서 캡처 한 JSON 응답이 포함되어 있습니다.Hadoop 및 R 시작하기
저는 R이 좋고 궁극적으로 데이터 세트를 연구하기 위해 무엇을 사용해야할지 모르겠지만 데이터를 "저장"할 방법이 필요하다는 것을 알고 있습니다. Hadoop과 HDFS에 대해 많이 들었지만 머리를 감쌀 수 없습니다. 로컬 컴퓨터의 텍스트 파일을 HDFS로 "복사"하고 RHadoop
을 사용하여 맵/축소 문을 작성하여 데이터 세트를 만들 수 있습니까?
마지막으로 MongoDB를 설치하여 실행 중이며 거기에 데이터를 저장하는 것을 고려하고 있었지만 Haddop 용 어댑터가 있음에도 불구하고 분석 성능 향상을 얻을 수 있는지 확신 할 수 없습니다.
내 질문 : 데이터를 성공적으로 캡처 한 후이를 저장하는 가장 좋은 방법은 R (및 기타 도구)을 사용하여 데이터를 분석하는 것입니다.