한 열의 문자열에서 다른 열에서 발생하는 단어를 제거하는 절차는 무엇입니까?다른 열에 나타나는 단어를 제거하십시오. Pandas
예를 들면 :
Sr A B C
1 jack jack and jill and jill
2 run you should run, you should ,
3 fly you shouldnt fly,there you shouldnt ,there
내가 그것은의 B 마이너스 내용이되도록, column C
를 원하는 것을 알 수있다. 제 3의 예에서, fly
다음에 쉼표가 붙어 있으므로, 구두점을 고려해야합니다 (코드가 주위의 공백을 감지하는쪽으로 더 많은 경우).
Column A
도 2 단어가 될 수 있으므로 삭제해야합니다.
df.apply(lambda x: x["C"].replace(r"\b"+x["A"]+r"\b", "").strip(), axis=1)
열 A에 항상 한 단어가 포함됩니까? 단어가 더 많은 경우 정확한 문자열을 2 열의 일치 항목으로 찾아야합니까? 아니면 문자열의 무작위 순열 일 수 있습니까? –
정확히 일치하는 경우 2 단어가 있습니다. A에서 "fly there"는 B에서 "fly fly"와 일치해야하며이를 제거해야합니다 .. –