대용량 데이터 세트로 작업하고 여러 CSV 파일로 분산되어 있다고 가정 해 보겠습니다. IPython 노트북을 열고 물건을 탐색하고, 변환을 수행하고, 데이터를 재정렬하고 정리합니다.IPython 노트북을 사용하면서 복잡성을 관리하는 방법은 무엇입니까?
그런 다음 데이터로 몇 가지 실험을 시작하고 더 많은 노트를 만들고 결국에는 데이터 변환 파이프 라인이 묻어있는 다양한 노트로 가득 채워집니다. 같은 방법으로 데이터 탐색/변환/학습에서 - 그 과정을 구성하는 방법
, 그 :
- 복잡성이 점차 상승, 폭발하지 않는다;
- 코드베이스를 관리하고 탐색 할 수 있도록하십시오.
- 데이터 변환 파이프 라인을 재생하고 조정할 수 있습니까?