imagenet 파일 (here이 차 이미지의 예입니다)에서 제공하는 URL에서 wget 명령을 사용하여 많은 파일을 다운로드했습니다. 그러나 내 파일을 검사 할 때 파일이 많다는 것을 알았습니다. 잘못된 확장자가 있습니다. 예를 들어, 파일 중 확장명이 '.jpg'인 파일은 실제로 텍스트 파일입니다. 그리고 --adjust-extension은 .html과 .css 파일에서만 잘 작동한다는 것을 알고 있습니다.셸 파일 확장자를 수정하고 중복을 제거하는 방법
내 질문에 그 파일이 있습니다 : 1. 어떻게 파일 확장자 (.jpg, .txt, .png, .html 등)를 복구 할 수 있습니까? 2. 이미지 중 일부가 두 번 이상 다운로드 될 수 있습니다. 중복을 제거하는 방법은 무엇입니까?
파이썬으로 할 수 있다면 잘됩니다. 미리 감사드립니다.
파일 확장자가 엉망인 경우 유닉스 프로그램'file'을 사용하여 적절한 파일 유형을 파악할 수 있습니다. 사용법은 쉘에서'man file'을 실행하십시오. –
내용의 체크섬을 사용하거나 2 단계 로켓을 만들고 파일 크기를 먼저 확인하고 두 개가 일치하면 내용의 체크섬을 수행하여 일치하는지 확인할 수 있습니다. – Torxed