2016-11-01 7 views
1

시간을내어 읽어 주셔서 감사합니다.정규 표현식이 실패하는 이유는 무엇입니까?

저는 'title'이라는 열에 두 개의 데이터 세트를 병합하기 위해 파이썬 팬더를 사용하고 있습니다. 한 데이터 집합의 데이터 중 일부는 제목 셀에 괄호로 묶인 추가 문자가있어이 셀에서 병합이 실패합니다. 그러나 괄호와 값을 다음과 같은 방법으로 제거하면 병합시 업데이트 된 데이터가 누락됩니다.

데이터 샘플, 코드 및 정규식은 다음과 같습니다.

정규식이 잘못되었다고 가정합니다 - 어떤 생각입니까?

import pandas as pd 

data1 = pd.DataFrame({'id': ['a12bcde0'], 'title': ['company_a']}) 

data2 = pd.DataFrame({'serial_number': ['01a2b345','10ab2030'],'title':['company_a','company_a (123)']}) 

data2['title'].replace(regex=True,inplace=True,to_replace=r"\(.*\)",value=r'') 

pd.merge(data1, data2, on='title') 
+4

당신은 여는 괄호 앞에 공백 잊고있는'to_replace = R \ "의 \을 (. * \)" ' –

+0

너무 간단하고 진실! @StevenRumbalski 감사합니다. – FunnyChef

답변

2

당신은 당신의 패턴에서 여는 괄호 앞에 공백을 잊고있어 : to_replace=r"\s\(.*\)"

관련 문제