2017-09-28 1 views
0

과 같이,지도와 축소 사이에 임의의 단계가 있습니다. 플 랭크 (flink)에 무대가 있는지, 어떻게 작동하는지 알고 싶습니다. 많은 웹 사이트를 읽었으므로 그 내용에 대해서는 언급하지 않았습니다. 단어 수를 나타내는 데모처럼 플랫 맵, 키 및 합계가 있습니다 두 연산자 사이에 항상 섞여있는 단계가 있습니까? 그리고이 연산자들간에 중간 데이터를 얻을 수 있습니까?아파치 플 링크 셔플의 전략? 하둡에서 어때?

+0

당신이 알고 싶은 것이 무엇인지 명확히 할 수 있습니까? –

답변

0

셔플이 항상 수행되는 것은 아니며 특정 연산자에만 의존합니다. 예를 들어, wordCount 예제의 keyby 단계는 키를 기반으로 데이터의 셔플 링을 수행하는 해시 분할기를 도입합니다.

예를 들어, 어떤 형태의 집계없이 데이터를 처리하고 필터링 한 다음 어딘가에 쓰기를 원한다면 각 파티션은 자체 데이터를 보유 할 것이고 임의의 셔플 링이 없을 것입니다 뒤얽힌.

그래서 귀하의 질문에 대답하기 -

  1. 아니, 셔플이 항상 따라 두 사업자 사이에 관여하지 않습니다.
  2. Hadoop과 같이 액세스 할 수있는 중간 파일에 대해 묻는다면 대답은 아니오, Flink는 메모리 내 처리 엔진이며 (대부분의 경우) 메모리에서 읽은 데이터를 처리합니다.
+0

감사합니다. 그렇다면 메모리에있는 데이터에 대해 뭔가를 할 방법이 없습니까? 나는 Spark이 맵과 감축 사이의 데이터를 읽는 클래스를 가지고 있음을 기억한다. – ZeMi

+0

정확히 무엇을하고 싶은지에 달려 있습니다. 나는 항상 방법이 있다고 믿고 싶다! –

+0

질문을 충분한 정보로 업데이트하거나 원하는 내용으로 새로운 질문을 만들면 여기에서 도움을 얻을 수 있습니다. –

관련 문제