2011-10-28 5 views
1

그래서 1.5TB가 넘는 데이터를 가지고 있습니다. 이것은 일종의 관계형 데이터베이스에서 나온 것이라고 들었습니다. 불행하게도, 어딘가에있는 관계형 데이터베이스 관계형을 만드는 모든 것이 제거되었고 우리는 거의 50 개의 .csv 파일을 가지고있었습니다. 각 파일은 데이터베이스의 테이블 중 하나에 해당합니다. 스키마가없고 참고도없고 도움이되는 문서가 하나뿐입니다. 문제를 복잡하게 만드는 것은 우리가 데이터베이스를 관리하고 CX_CUST_O에서 X_ATTRIB_14가 무엇을 의미하는지 묻지 못하는 사람들에게 접근 할 수 없다는 것입니다..csv 파일에서 관계형 데이터베이스를 다시 작성하는 방법은 무엇입니까?

우리는 각 속성에 대해 이름과 데이터 유형을 나열하고 모든 테이블을 포함하는 파일을 가지고 있으므로 최소한 속성이 무엇인지 알 수 있습니다. 그것은 뭔가

TABLE_NAME

같은 ROW_ID ..................... VARCHAR2 CREATED (32)

보이는 ...... .............. VARCHAR2 (16)

LAST_MODIFIED ......... DATE

등 등 등

데이터는 매우 고르지이며 필드에 나열된 데이터가없는 많은 속성과 많은 도움이되지 않는 이름 ATTRIB_3와 (과) 같습니다. 각 테이블에는 ROW_ID, CREATED 및 CREATED_BY는 물론 CONFLICT_ID가 있습니다. 그런 다음, 일반적으로 누덕 누덕 기운이며 부분적으로 채워지는 빈 필드가 많은 데이터 필드가 있습니다.

지금까지는 값이없는 속성을 제거하고 힌트를 제공하는 간단한 명명 규칙이 있는지 확인하여 기본적인 사전 처리를 수행했습니다. 예를 들어 TABLE_A의 X_ATTRIB_3이 TABLE_B의 X_ATTRIB_3을 사용하면 흔히 볼 수있는 일반적인 속성 만 나타납니다. 예를 들어 LONGITUDE는 일부 테이블에서 공통적으로 사용되지만 거의 도움이되지 않습니다. 계속 진행하는 방법이 확실하지 않습니다. 데이터의 크기가 커서 모든 것을 손으로 보는 것은 불가능합니다.

테이블간에 관계를 재구성하는 데 도움이되는 도구 나 기술이 있습니까? 아니면 처음부터 시작해야 할 정도로 희귀 한 도구입니까?

감사합니다.

+0

다음과 같은 질문에 대해서는 새 웹 사이트가 필요합니다. http://realworld.stackexchange.com – Dave

+0

이것은 도움이되지 않지만 관계형 부분을 버리고 모든 테이블의 모든 행을 Mongo/some-other -document-db? – jcollum

+0

나는 문서 기반 데이터베이스가 문제를 어떻게 개선 할 것인지 완전히 모르겠다. 그 무엇보다 무지에서 비롯된다. 그들의 웹 사이트를 감추는 것은 실제로 나를 계몽적 인 것으로 남겨 두지 않는다 - 데이터는 여전히 관계형 방식으로 디자인 될 것이다. 왜 도움이 될지 설명해 주시겠습니까?(<- 매우 무식하지만이 프로젝트 이전에는 실제로 데이터베이스와 작업하지 못했습니다.) – Shiro

답변

1

복잡한 데이터 구조에 대한 관계를 다시 작성하는 것은 데이터 자체의 특성에 대한 자세한 지식 없이는 매우 어렵습니다. 관계는 손으로 다시 작성해야하며 올바르게하기 위해 데이터를 수정해서는 안됩니다. 대부분의 데이터베이스 스키마 디자인에서 디자이너는 레코드 ID와 일반적으로 임의의 숫자 인 쉽게 인덱싱 할 수있는 데이터를 통해 관계를 생성합니다. 가장 먼저해야 할 일은 원시 형식 그대로 데이터베이스에 콘텐츠를 추가하는 것입니다. 그런 다음 데이터에 대한 경험적 방법을 바탕으로 데이터에 대해 수행하려는 쿼리를 기반으로하는 관계를 만듭니다. 이를 위해 전문적인 도움이 필요할 것입니다 :-) - 실제로 자동화 된 빌드 도구를 사용하여 원시 데이터를 처리하는 것이 좋습니다. CSV와 같은 형식으로 데이터를 처리 한 다음 다시 작성하려고하면 정보가 손실 될 수 있습니다.

+0

낙담하지만 예상했던 것에 대해 ... 답변을 주셔서 감사합니다. – Shiro

+0

도움이 필요하면 알려주세요. 일부 리소스를 알려줄 수도 있습니다 ... 내 이메일은 masud입니다. googgun.com –

관련 문제