2013-08-26 2 views
0

큰 데이터 프레임 (2 천만 행, 몇 천 개의 열)이 파이썬에서 팬더로 만들어집니다. 이 데이터 프레임은 PyRserve를 사용하여 R로 전달됩니다. 최대 속도는 수 초입니다.pyRserve를 사용하는 pandas 데이터 프레임

팬더에는 to_json 기능이 있습니다. 그런 거대한 물건들에 대한 json 대화를하는 것이 유일한 방법입니까? 그런 큰 물체는 괜찮습니까?

난 항상 디스크에 기록하고 읽을 수 있습니다 (빠른 FREAD를 사용하여, 그것은 내가 한 일을하는 것이)하지만,이 작업을 수행하는 가장 좋은 방법은 무엇입니까?

+4

이 질문 오프 주제 것으로 보인다 (더 나은 [구글 그룹스]를 통해 물어 (https://groups.google.com/forum/#!forum/pyrserve)). –

답변

2

시도해 보지 않고도 to_json은 매우 나쁜 생각 인 것 같습니다. 큰 데이터 프레임의 경우 쓰기와 읽기 모두에 오버 헤드가 많기 때문에 악화되고 있습니다.

당신이합니다 (dataframe 한 번만 생성됩니다 아마 때문에) 디스크에 뭔가를 작성하려는 경우 당신이 인터페이스 팬더와 R에 HDF5 (자세한 내용은 this thread를 볼 수 있습니다, RPY2를 사용하는 것이 좋습니다 (supported directly by pandas 인) 또는 것 이 형식을 사용). 이 pyrserve하는 개선 요청이기 때문에

+0

@filmor에게 감사하지만 pyRserve를 사용해야합니다. 지금 현재 디스크에 쓰고 있지만 pyRserve를 통해 pandas의 데이터 프레임을 R에 직접 전달하는 방법이 있었으면합니다. – user1971988

+0

@ user1971988 pyRserve는 작업에 적합한 도구가 아닙니다 (적어도 googlegroup 및 github repo를 검색하면 팬더에 대한 결과가 표시되지 않습니다). –

+0

감사합니다. @AndyHayden. 나는 메모리 내 솔루션을 기다려야 할 것 같다. – user1971988

관련 문제