데이터 프레임 열의 각 행에서 하위 문자열을 검색하고 싶습니다. 어딘가에 열이 집합으로 변환 될 수 있는지 검색하는 것이 더 빠릅니다. 여기에 제안 된 접근 방식을 사용하려고합니다 : How to convert list into set in pandas? 하지만 예상치 못한 결과가 나타납니다. 나는 다음과 같은 접근 방식 사용하면목록을 팬더 데이터 프레임 세트로 변환
R_id Badges
0 7LBCS New Reviewer - 1 Review
1 8FKME New Reviewer - 1 Review; New Photographer - 1 Photo; Reviewer - 3 Reviews;
가 :
df['Badges'] = df.apply(lambda row: set(row['Badges']), axis=1)
또는
df['Badges'] = df['Badges'].apply(set)
을 나는 위의 dataframe의 각 행에 대해 얻을 출력이 세트입니다 내 dataframe은 다음과 같습니다 행에있는 문자열의 고유 한 문자가 있습니다. 어떤 이유로 출력이 생성되는 즉시 Spyder IDE가 충돌하기 때문에 정확한 출력을 복제 할 수 없습니다. 하지만 첫 번째 행의 출력은 다음과 같습니다.
{'1', '-', 'N', 'e', 'w', 'R', 'v', 'i', 'r'}
변환으로 변환 할 때 무엇이 잘못 될 수 있습니까?
찾고있는 하위 문자열은 무엇입니까? – GiantsLoveDeathMetal
@GiantsLoveDeathMetal 예를 들어, "새로운 리뷰 작성자"를 찾고 있습니다. 실제 용도로 약 50 개의 부분 문자열을 검색해야합니다. 어떤 행에는 "New Reviewer", "Reviewer", "New Photographer"등과 같은 약 400 개의 서술자가 있습니다. – Rnovice
NIT :'set'으로 변환하면 중복 된 인스턴스가 제거됩니다. – GiantsLoveDeathMetal