1

대용량 데이터 세트로 작업하고 여러 CSV 파일로 분산되어 있다고 가정 해 보겠습니다. IPython 노트북을 열고 물건을 탐색하고, 변환을 수행하고, 데이터를 재정렬하고 정리합니다.IPython 노트북을 사용하면서 복잡성을 관리하는 방법은 무엇입니까?

그런 다음 데이터로 몇 가지 실험을 시작하고 더 많은 노트를 만들고 결국에는 데이터 변환 파이프 라인이 묻어있는 다양한 노트로 가득 채워집니다. 같은 방법으로 데이터 탐색/변환/학습에서 - 그 과정을 구성하는 방법

, 그 :

  • 복잡성이 점차 상승, 폭발하지 않는다;
  • 코드베이스를 관리하고 탐색 할 수 있도록하십시오.
  • 데이터 변환 파이프 라인을 재생하고 조정할 수 있습니까?

답변

1

글쎄, 지금은이 문제가 있고 다음 큰 데이터 집합으로 작업 할 때. 복잡성은 내가 함께 사는 법을 배웠습니다. 때로는 일을 단순하게 유지하는 것이 어렵습니다.

내가 도움이된다고 생각하는 것이 모두 GIT 저장소입니다. 잘 관리하고 잘 쓰여진 메시지로 커밋을하면 데이터 변환을 쉽게 추적 할 수 있습니다.

내가 몇 가지 테스트를 할 때마다 지점을 새로 만들고 그에 대한 작업을 수행합니다. 그것이 어디에도 없으면 나는 단지 내 주점으로 돌아가 거기에서 일하기를 계속한다. 그러나 내가 한 일은 내가 필요하다면 여전히 참고 용으로 사용할 수있다.

유용성이 있다면 그냥 마스터 브랜치에 병합하고 새로운 테스트를 계속하고 필요에 따라 새 브랜치를 만듭니다.

귀하의 질문에 모두 답변을하지 못했고 귀하의 노트북에서 이미 버전 제어 기능을 사용하고 있는지도 모르겠지만, 저에게는 많은 도움이되는 내용이며 jupyter를 사용할 때는 정말 좋습니다. - 노트.

관련 문제