파일 경로는 본질적으로 데이터 작업시 의심 스럽습니다. find_brca
이라는 프로그램에서 가상의 상황이 발생하고 my.genome
이라는 데이터가 있고 /Users/Desktop/
디렉토리에 있다고 가정 해 보겠습니다.파일 경로를 사용하지 않는 파일 시스템이 있습니까?
find_brca
은 약 4 시간 동안 실행되는 게놈 하나의 인수를 취해 그 개인이 평생 동안 유방암에 걸릴 확률을 반환합니다. 매우 높은 확률로 제시된 사람들은 즉시 유방을 예방책으로 삭제할 수 있습니다.
분명히이 시나리오에서는 /Users/Desktop/my.genome
이 실제로 우리가 생각하는 게놈을 포함하고 있다는 것이 절대적으로 중요합니다. do-over는 없습니다. "이전 백업 파일의 이전 버전을 사용했습니다."또는 기타 기술적 인 문제는 환자가 받아 들일 수 없습니다. 분석 할 것으로 생각되는 파일을 분석하려면 어떻게해야합니까?
문제를 복잡하게 만들려면 find_brca
을 수정할 수 없다고 주장 할 수 있습니다. 우리는 폐쇄 소스, 독점권 등을 쓰지 않았기 때문입니다.
MD5 또는 다른 암호화 체크섬이 구조 될 수 있다고 생각할 수 있으며 어느 정도 도움이되지만 find_brca
이 실행되기 전이나 후에 파일을 MD5로만 볼 수는 있지만 결코 알 수는 없습니다 find_brca
이 정확히 어떤 데이터를 사용했는지 (DTrace/ptrace 등의 심각한 저수준 시스템 프로빙을하지 않고).
문제의 근본 원인은 파일 경로가 실제 데이터와 1 : 1 관계를 가지지 않는다는 것입니다. 파일을 체크섬으로 만 요청할 수있는 파일 시스템에서만 - 그리고 데이터가 수정되면 체크섬이 수정됩니다. find_brca
게놈의 파일 경로 4fded1464736e77865df232cbcb4cd19
을 제공 할 때 실제로 올바른 게놈을 읽는 것을 보장 할 수 있습니다.
이와 비슷한 파일 시스템이 있습니까? 현재 존재하지 않는 파일 시스템을 만들고 싶다면 어떻게 할 것인가?
나는 문제가 그랬듯이 질문을 이해 있습니다. 그래서 문제는 "나쁜"누군가 파일을 수정할 수 있다는 것입니다. – dmeister
파일 경로가 생각하는 데이터를 가리 키지 않는 시나리오가 많기 때문에 약간 애매했습니다. 부패. 실행 전 또는 4 시간 런타임 동안 경쟁 조건으로 파일을 우발적/의도적으로 다른 것으로 전환합니다. 백업 등에서 사용 된 이전 버전 프로그램 끝에 분석 할 파일 경로를 주면 하루가 끝날 때 그 경로의 끝에서 데이터에 대한 보장을하지 않기 때문입니다. 임의의 이름이 아닌 체크섬을 기반으로 파일을 요청할 수있는 파일 시스템에서는 이러한 문제가 없습니다. –