2017-09-20 1 views
3

AWS의 새로운 ETL 도구에서 numpy 및 pandas와 같은 패키지를 Glue?라고 사용하는 가장 쉬운 방법은 무엇입니까? 파이썬에서 numpy와 pandas를 사용하는 AWS Glue로 실행하고 싶은 완성 된 스크립트를 가지고 있습니다.AWS Glue Python

답변

1

작업을 편집하거나 새 작업을 만들면 "스크립트 라이브러리 및 작업 매개 변수 (선택 사항)"라고하는 선택적 섹션이 축소됩니다. 거기에서 파이썬 라이브러리 (물론 다른 것들)를위한 S3 버킷을 지정할 수 있습니다. 나는 그 부분을 위해 나 자신을 아직 시도하지 않았지만 그것이 당신이 찾고있는 것이라고 생각한다.

+0

포함 할 모듈이 많은 경우 단일 ZIP 파일로 보관하고 "스크립트 라이브러리 및 작업 매개 변수"매개 변수에 첨부 할 수 있습니다. 모듈을 실행중인 작업에 사용할 수 있습니다. –

1

단추가있는 실행 작업을 클릭하면 기본적으로 축소 된 작업 매개 변수 (선택 사항)를 클릭 할 때 s3에 라이브러리를 저장하는 데 사용할 수있는 다음 옵션이 있습니다.

파이썬 라이브러리 경로

S3 : // 버킷 이름/폴더 이름/파일 이름

종속 항아리 경로

S3 : // 버킷 이름/폴더 이름/파일 -name

참조 된 파일 경로 S3 : // 버킷 이름/폴더 이름/파일 이름

4

나는 현재의 대답은 수없는 당신을 생각합니다. AWS Glue Documentation에 따르면 :

순수한 파이썬 라이브러리 만 사용할 수 있습니다. pandas Python Data Analysis Library와 같은 C 확장에 의존하는 라이브러리는 아직 지원되지 않습니다.

하지만 S3에 일반 파이썬 작성 라이브러리를 포함하려고해도 일부 HDFS 사용 권한 문제로 인해 Glue 작업이 실패했습니다. 이 문제를 해결할 방법을 찾으면 저에게 알려주십시오.

관련 문제