2013-02-07 1 views
1

분류 모델을 작성하기 위해 큰 csv 파일 (약 18G)을 rapidminer에로드하려고합니다. "가져 오기 구성 마법사"는 데이터를로드하는 데 어려움이 있습니다. 따라서 "매개 변수 목록 편집 : 데이터 세트 메타 데이터 정보"를 사용하여 특성 및 레이블 정보를 설정합니다. 그러나 UI 인터페이스를 사용하면 해당 정보를 열 단위로 만 설정할 수 있습니다. 내 CSV 파일에는 약 80000 개의 열이 있습니다. 이런 종류의 시나리오를 어떻게 처리해야합니까? 감사.큰 csv 파일을 rapidminer에로드 할 때의 문제

+0

심각한 RAM 용량을 갖춘 64 비트 컴퓨터가 있습니까? 그렇지 않으면 18G 데이터 세트를 처리 할 수 ​​없습니다. –

+0

저는 서버에서 Rapidminer를 실행 중이며 Java-Xmx 40G를 사용하여 40G로 지정합니다. – user785099

답변

0

아직 직접 사용해 보지 않았지만 CSV를 MySQL 데이터베이스에로드 할 수 있어야합니다. 그런 다음 스트림 데이터베이스 연산자를 사용하여 크기 제한을 피할 수 있습니다. 다음은 RapidMiner의 설명입니다.

데이터를 메인 메모리에로드하는 것과는 달리, Stream Database 연산자는 데이터를 데이터베이스에 보관하고 데이터 읽기를 일괄 적으로 수행합니다. 이를 통해 RapidMiner는 크기 제한없이 임의의 크기의 데이터 세트에 액세스 할 수 있습니다.

관련 문제