2017-04-12 7 views
0

나는 병렬 처리 1로 flink 스트리밍 작업을 실행 중입니다.Flink 스트리밍 작업이 자동으로 실패했습니다.

8 시간 후 갑자기 실패했습니다. 그것은 보여 주었다

Association with remote system [akka.tcp://[email protected]:44863] has failed, address is now gated for [5000] ms. Reason is: [Disassociated]. 
2017-04-12 00:48:36,683 INFO org.apache.flink.yarn.YarnJobManager       - Container container_e35_1491556562442_5086_01_000002 is completed with diagnostics: Container [pid=64750,containerID=container_e35_1491556562442_5086_01_000002] is running beyond physical memory limits. Current usage: 2.0 GB of 2 GB physical memory used; 2.9 GB of 4.2 GB virtual memory used. Killing container. 
Dump of the process-tree for container_e35_1491556562442_5086_01_000002 : 
    |- PID PPID PGRPID SESSID CMD_NAME USER_MODE_TIME(MILLIS) SYSTEM_TIME(MILLIS) VMEM_USAGE(BYTES) RSSMEM_USAGE(PAGES) FULL_CMD_LINE 
    |- 64750 64748 64750 64750 (bash) 0 0 108654592 306 /bin/bash -c /usr/java/jdk1.7.0_67-cloudera/bin/java -Xms724m -Xmx724m -XX:MaxDirectMemorySize=1448m -Djava.library.path=/opt/cloudera/parcels/CDH/lib/hadoop/lib/native/ -Dlog.file=/var/log/hadoop-yarn/container/application_1491556562442_5086/container_e35_1491556562442_5086_01_000002/taskmanager.log -Dlogback.configurationFile=file:logback.xml -Dlog4j.configuration=file:log4j.properties org.apache.flink.yarn.YarnTaskManagerRunner --configDir . 1> /var/log/hadoop-yarn/container/application_1491556562442_5086/container_e35_1491556562442_5086_01_000002/taskmanager.out 2> /var/log/hadoop-yarn/container/application_1491556562442_5086/container_e35_1491556562442_5086_01_000002/taskmanager.err 
    |- 64756 64750 64750 64750 (java) 269053 57593 2961149952 524252 /usr/java/jdk1.7.0_67-cloudera/bin/java -Xms724m -Xmx724m -XX:MaxDirectMemorySize=1448m -Djava.library.path=/opt/cloudera/parcels/CDH/lib/hadoop/lib/native/ -Dlog.file=/var/log/hadoop-yarn/container/application_1491556562442_5086/container_e35_1491556562442_5086_01_000002/taskmanager.log -Dlogback.configurationFile=file:logback.xml -Dlog4j.configuration=file:log4j.properties org.apache.flink.yarn.YarnTaskManagerRunner --configDir . 

Container killed on request. Exit code is 143 
Container exited with a non-zero exit code 143 

응용 프로그램/코드 측면 오류가 없습니다.

무엇이 원인인지 이해하는 데 도움이 필요합니까?

답변

2

작업이 Yarn에 설정된 메모리 제한을 초과하여 작업이 종료됩니다. 오류 메시지의이 부분을 참조하십시오.

Container [pid=64750,containerID=container_e35_1491556562442_5086_01_000002] is running beyond physical memory limits. Current usage: 2.0 GB of 2 GB physical memory used; 2.9 GB of 4.2 GB virtual memory used. Killing container. 
+0

이것은 응용 프로그램의 메모리 소비 또는 일부 원사 자원 관리 프로세스로 인한 것일 수 있습니다? – Sohi

+0

작업 관리자에서 jmap을 사용하여 모니터를 시도했지만 메모리가 부족한 것을 얻지 못했습니다. 로그의 메모리 부족 오류도 없습니다. – Sohi

+0

4GB 메모리가있는 컨테이너를 실행하려고했습니다. 이 작업은 20 시간 동안 실행 된 다음 동일한 예외로 실패했습니다. 단지 내가 알아 차 렸던 것은 permgen 공간의 15 mb의 증가이었다. – Sohi

관련 문제