그래서 1.5TB가 넘는 데이터를 가지고 있습니다. 이것은 일종의 관계형 데이터베이스에서 나온 것이라고 들었습니다. 불행하게도, 어딘가에있는 관계형 데이터베이스 관계형을 만드는 모든 것이 제거되었고 우리는 거의 50 개의 .csv 파일을 가지고있었습니다. 각 파일은 데이터베이스의 테이블 중 하나에 해당합니다. 스키마가없고 참고도없고 도움이되는 문서가 하나뿐입니다. 문제를 복잡하게 만드는 것은 우리가 데이터베이스를 관리하고 CX_CUST_O에서 X_ATTRIB_14가 무엇을 의미하는지 묻지 못하는 사람들에게 접근 할 수 없다는 것입니다..csv 파일에서 관계형 데이터베이스를 다시 작성하는 방법은 무엇입니까?
우리는 각 속성에 대해 이름과 데이터 유형을 나열하고 모든 테이블을 포함하는 파일을 가지고 있으므로 최소한 속성이 무엇인지 알 수 있습니다. 그것은 뭔가
TABLE_NAME
같은 ROW_ID ..................... VARCHAR2 CREATED (32)보이는 ...... .............. VARCHAR2 (16)
LAST_MODIFIED ......... DATE
등 등 등
데이터는 매우 고르지이며 필드에 나열된 데이터가없는 많은 속성과 많은 도움이되지 않는 이름 ATTRIB_3와 (과) 같습니다. 각 테이블에는 ROW_ID, CREATED 및 CREATED_BY는 물론 CONFLICT_ID가 있습니다. 그런 다음, 일반적으로 누덕 누덕 기운이며 부분적으로 채워지는 빈 필드가 많은 데이터 필드가 있습니다.
지금까지는 값이없는 속성을 제거하고 힌트를 제공하는 간단한 명명 규칙이 있는지 확인하여 기본적인 사전 처리를 수행했습니다. 예를 들어 TABLE_A의 X_ATTRIB_3이 TABLE_B의 X_ATTRIB_3을 사용하면 흔히 볼 수있는 일반적인 속성 만 나타납니다. 예를 들어 LONGITUDE는 일부 테이블에서 공통적으로 사용되지만 거의 도움이되지 않습니다. 계속 진행하는 방법이 확실하지 않습니다. 데이터의 크기가 커서 모든 것을 손으로 보는 것은 불가능합니다.
테이블간에 관계를 재구성하는 데 도움이되는 도구 나 기술이 있습니까? 아니면 처음부터 시작해야 할 정도로 희귀 한 도구입니까?
감사합니다.
다음과 같은 질문에 대해서는 새 웹 사이트가 필요합니다. http://realworld.stackexchange.com – Dave
이것은 도움이되지 않지만 관계형 부분을 버리고 모든 테이블의 모든 행을 Mongo/some-other -document-db? – jcollum
나는 문서 기반 데이터베이스가 문제를 어떻게 개선 할 것인지 완전히 모르겠다. 그 무엇보다 무지에서 비롯된다. 그들의 웹 사이트를 감추는 것은 실제로 나를 계몽적 인 것으로 남겨 두지 않는다 - 데이터는 여전히 관계형 방식으로 디자인 될 것이다. 왜 도움이 될지 설명해 주시겠습니까?(<- 매우 무식하지만이 프로젝트 이전에는 실제로 데이터베이스와 작업하지 못했습니다.) – Shiro