랩톱의 단일 노드 클러스터에서 hadoop을 사용하기 시작했으며 Java보다 더 잘 알고있는 Python으로 처리하려고했습니다. 분명히 스트리밍은 다른 패키지를 설치하지 않고 그렇게하는 가장 간단한 방법입니다. 잘과학적 데이터 분석을위한 Python 스트리밍
내 질문입니다, 내가 스트리밍 약간의 데이터 분석을 수행 할 때, 나는했다 : 기본 입력 파일에 맞게 텍스트 파일로 내 데이터 (매트릭스, 배열 ...)를 변환
- 스트리밍 형식.
- 내 mapper.py에서 데이터를 재구성하여 명시 적으로 (키, 값) 쌍을 만들어 인쇄하십시오.
- 결과를 텍스트 형식으로 읽고 매트릭스 데이터로 변환하여 다른 것들을 수행 할 수있게하십시오.
텍스트 파일로 입력 한 단어 수를 계산하면 모든 것이 잘 보입니다. 그러나 스트리밍 내에서 데이터 구조를 어떻게 처리합니까? 내가 한 방법은 ... 그냥 받아 들일 수없는 것 같다
문제를 해결 된 것으로 표시하려면 선택한 답변 옆에있는 녹색 눈금을 클릭해야합니다. "해결 된"이라는 단어를 질문이나 제목으로 편집해도 문제가 해결 된 것이 아닙니다. 그 진드기를 클릭하십시오. –