2017-03-23 1 views
0

나는 팬더에서 5 천만 행의 데이터 프레임을 작업 중입니다. 열을 훑어보고 텍스트의 특정 부분을 추출해야합니다. 열에는 4 또는 5 패턴으로 정의 된 문자열 값이 있습니다. 텍스트를 추출하고 원래 문자열을 대체해야합니다. 나는 이것을 위해 apply 함수와 regex를 사용하고있다. 이것은 실행 날에 가까운 날 걸립니다. 나는 이것이 비효율적이라고 생각한다. 아니면 정상입니까? 내가 더 빨리 접근 할 수없는 접근법이 있습니까?팬더에서 5 천만 행 작업하기 (파이썬)

+0

많은 코드를 붙여 넣고 "도와주세요"라는 말은 일반적으로 눈살을 찌푸리게합니다! 더 나은 점은 *** [MCVE] (http://stackoverflow.com/help/mcve) ***을 읽고 다른 사람들이 귀하를 도울 수있는 정보로 질문을 편집하십시오. – piRSquared

답변

0

여기 문서입니다 :

http://pandas.pydata.org/pandas-docs/stable/indexing.html

http://pandas.pydata.org/pandas-docs/stable/text.html#extracting-substrings

교체 텍스트가 쉽습니다. 하루는 정상이 아닙니다. 이 게시물의 이전 버전에서 갖고 있던 모든 목록을 제거하십시오. 너는 필요 없어. 데이터를위한 공간이 더 필요하면 데이터 프레임에 열을 추가하십시오. 데이터 유형을 학습하여 데이터를 작게 만드십시오.

import pandas as pd 
df = pd.DataFrame() #import your data at this step 
df['column'].str.extract(regex_thingy_here) 

더 자세히 작성했지만 코드를 작성했습니다.

+0

입력 해 주셔서 감사합니다. 그것은 정말 잘 작동하고 이제는 5 분 안에 일을 끝낼 수 있습니다. 마지막 단계로 str.extract 함수를 사용했지만 쉽게 작업을 완료하는 것이 중요했습니다. 다시 한번 감사합니다! 내 대답이 늦어서 미안해. – Vatsan28

+0

다행이었습니다. 의견에 감사드립니다. – Back2Basics

관련 문제