탭으로 구분 된 데이터베이스를 데이터 세트에 추가하는 올바른 방법은 무엇입니까?

파일에는 26 개의 열과 매우 많은 행이 있습니다. HDF5를 사용하면 한 번에 한 줄씩 파일을 읽고 내용을 1x26 메모리 공간으로 읽은 다음 데이터 세트를 1x26으로 확장하고 메모리 공간 내용을 데이터 집합의 새로 추가 된 행에 복사하면됩니까?탭으로 구분 된 데이터베이스를 데이터 세트에 추가하는 올바른 방법은 무엇입니까?

이것이 얼마나 효율적인지, 또는 이것이 올바른 방법인지 모르겠지만, 나는 이것에 정말로 새로운 것입니다.

감사합니다.

출처

2013-06-17 gravitas

이전에 행이있을 것입니다. – Yossarian

명령 줄 번호를 미리 가져 오지 않는 한 그렇지 않습니다. – gravitas

정확한 답변은 정확한 사용 사례에 따라 다릅니다. 확실히 이 아닙니다.은 사용자가 제안한 방식대로 수행 할 수 있지만 더 효율적/빠른 방법으로 수행 할 수 있습니다. 일반적으로 청크의 크기를 데이터 읽기/쓰기 방법에 맞게 조정하려고합니다.

미리 줄 수를 대략 알고 있다면 비교적 큰 덩어리를 압축하는 것이 훨씬 더 빠를 것입니다. 예를 들어, 1000 ~ 2000 행 사이에있을 가능성이 높은 경우 청크를 100 행으로 사용하고 압축을 사용 가능하게 설정하십시오. 이렇게하면 한 번에 한 행을 사용하는 것보다 훨씬 적은 수의 IO 작업이 수행됩니다.

반면에 데이터 집합이 한 번에 한 행씩 시간이 지나면 커질 가능성이 크면 길을 처리하는 것이 좋습니다.

다른 고려 사항은 데이터를 읽는 방법입니다. 한 번에 한 행만 읽으려면 1x26 덩어리가 좋은 아이디어 일 것입니다. 그러나 한 번에 전체 데이터 세트를 읽는다면 더 큰 덩어리를 사용하십시오.

출처

2013-06-19 06:43:59 Yossarian

탭으로 구분 된 데이터베이스를 데이터 세트에 추가하는 올바른 방법은 무엇입니까?

답변

관련 문제