2012-11-08 3 views
3

"빅 데이터"에 대해 배우려고하고 있는데, 시작하는 유일한 방법은 바로 들어가는 것입니다. 주목할 가치는 집에있는 단일 기계를 사용한다는 것입니다. 문맥을 위해, 나는 약 300GB의 데이터를 합계 약 700 텍스트 파일이 있습니다. 각 파일에는 지난 달 트위터 소방서에서 캡처 한 JSON 응답이 포함되어 있습니다.Hadoop 및 R 시작하기

저는 R이 좋고 궁극적으로 데이터 세트를 연구하기 위해 무엇을 사용해야할지 모르겠지만 데이터를 "저장"할 방법이 필요하다는 것을 알고 있습니다. Hadoop과 HDFS에 대해 많이 들었지만 머리를 감쌀 수 없습니다. 로컬 컴퓨터의 텍스트 파일을 HDFS로 "복사"하고 RHadoop을 사용하여 맵/축소 문을 작성하여 데이터 세트를 만들 수 있습니까?

마지막으로 MongoDB를 설치하여 실행 중이며 거기에 데이터를 저장하는 것을 고려하고 있었지만 Haddop 용 어댑터가 있음에도 불구하고 분석 성능 향상을 얻을 수 있는지 확신 할 수 없습니다.

내 질문 : 데이터를 성공적으로 캡처 한 후이를 저장하는 가장 좋은 방법은 R (및 기타 도구)을 사용하여 데이터를 분석하는 것입니다.

답변

1

일괄 처리를 많이하고 트윗에 대한 실시간 쿼리를 수행하지 않으려는 경우 MongoDB와 같은 비 관계형 데이터베이스가 필요에 매우 적합합니다. 따라서 실시간 질의를 위해 MongoDB의 Aggregation Framework를 살펴보십시오.

다음과 같이 나타납니다. 데이터로 실제로 무엇을하고 싶습니까? 장소 주변의 트윗을 찾고 팔로어 수를 표시 하시겠습니까? 장기적인 추세 분석?

다음은 루비/몽고범 게시물로 누군가가 3 백만 건의 짹짹을 어떻게 긁 었는지 나타냅니다. how-i-scraped-and-stored-over-3-million-tweets

1

MongoDB를 사용해서는 안됩니다. 배치 분석을 위해 설계되지 않았으므로 그 목적을 달성 할 수 없습니다.

파일을 HDFS로 복사하고 RHadoop을 사용하는 것이 일반적으로 좋은 방법이지만, 한 대의 컴퓨터 만 사용하는 것이 이상적인 경우는 아닙니다. 하나의 머신에있는 여러 코어를 확실히 활용할 수 있으며 메모리가 넘치지 않고 모든 작업을 처리 할 수 ​​있지만 작업에 이상적인 도구는 아닐 수도 있습니다.

나는 거기에있는 R 라이브러리에 대해 너무 많이 알지는 못한다. 그러나 큰 데이터 세트를 처리 할 때 더 좋은 것이 있을지 모르지만 그렇게 크지 않아 여러 대의 기계가 필요하다. 지옥, 더 전통적인 분석 데이터베이스에 데이터를 넣는 것조차 더 좋을 수도 있습니다.