2016-12-26 1 views
0

AWS s3 버킷에서 UTF-8 형식의 파일 이름으로 작업 할 때, 파일에 링크 된 일부 인용 된 파일 이름 s3 버킷에서) 내 파이썬 애플 리케이션 (나는 boto 라이브러리를 사용하여)의 코드에 의해 인용 된 동일한 파일 이름 다를 수 있습니다. 내가 알기로 그들은 다른 normalization forms of unicode으로 인해 다르며 unicodedata.normalize을 사용하면 문제가 사라집니다. 내가 AWS (NFC, NFKC, NFD 또는 NFKD)에 의해 사용되는 정규화 형태에 대한 정보를 찾을 수없는, 그래서 나는 정보, 감사 것을 제공 trasted 소스의 suggestance 감사 높은 것입니다 그러나AWS S3 용 유니 코드 정규화 형식이란 무엇입니까?

.

+1

S3가 개체 키를 전혀 정규화하지 않는 것처럼 보입니다. 당신은 예제 코드 포인트 시퀀스와 그것이 변환하는 시퀀스를 제공 할 수 있습니까? –

답변

0

S3에서 정규화 자체가 적용되지 않은 것처럼 보입니다. S3 웹 콘솔을 사용하여 유니 코드 이름 (예 : Ärende.txt)을 가진 파일을 Mac 및 Windows에서 S3로 업로드하면 S3에 두 개의 파일이 생성됩니다. S3 콘솔에서도 동일하게 보이지만 이름의 인코딩이 다르므로 S3에 의해 별개로 간주됩니다.

응용 프로그램 (사용자)에게 미치는 영향을 정확하게 고려하여 적절하게 조정해야합니다. 예를 들어, 사용자가 환경 (Mac과 Windows, Linux)을 전환하고 플랫폼 간 일관된 동작을 기대할 경우 사용자 이름을 정상화해야합니다. 사용자가 단일 플랫폼에서 일관되게 작업하는 경우 가장 신경 쓸 필요가 없습니다.