2017-09-11 2 views
1

내가 분류를위한 텍스트를 전처리하고 기반으로, 나는이처럼 내 데이터 집합을 가져옵니다, 때분할 dataframe 열 구분

        lyrics,classification 
0 I should have known better with a girl like yo... 
1 You can shake an apple off an apple tree\nShak... 
2 It's been a hard day's night\nAnd I've been wo... 
3 Michelle, ma belle\nThese are words that go to... 

그러나 : 터미널에

dataset = pd.read_csv('lyrics.csv', delimiter = '\t', quoting = 2) 

dataset 인쇄 spyder을 사용하여 변수 dataset을 더 자세히 살펴보면 원하는 두 열 대신 하나의 열만있는 것을 알 수 있습니다.

1) 하나의 열 lyrics을 위해 :

enter image description here

가사 자체가 ","구분자가 작동하지 않을 쉼표를 가지고 있음을 고려,

는 어떻게해야하는 순서로 위 내 dataframe를 해결합니까

2)와 하나의 컬럼에 대응 classification

위한

각 행에 대한 데이터?

+0

세트는'구분 기호 = ','' – DJK

답변

1

가사 자체에 쉼표가없는 경우 (대부분 가능), read_csvdelimiter=','과 함께 사용할 수 있습니다. 그 옵션이없는 경우

그러나, 당신은 str.rsplit을 사용할 수

dataset.iloc[:, 0].str.rsplit(',', expand=True) 

df 

           lyrics,classification 
0 I should have known better with a girl like yo... 
1        You can shake an...,0 
2     It's been a hard day's night...,0 

df = df.iloc[:, 0].str.rsplit(',', 1, expand=True) 
df.columns = ['lyrics', 'classification'] 
df 

               lyrics classification 
0 I should have known better with a girl like yo...    0 
1        You can shake an...    0 
2     It's been a hard day's night...    0 
+0

뭔가 여기 잘못 ... 때문에 솔루션 내 데이터 세트가 엉망이 됐어. 모든 줄마다 가사가 아니라 모든 가사가 표시됩니다. –

+0

@data_garden 이것을 시도해보십시오 :'.str.rsplit (',', 1, expand = True)'# 거기에 1을 적어주세요 –

+0

@data_garden 가사는 각 줄 뒤에 쉼표가 붙어있어서 분명합니다. 그래서'rsplit' 다중 분할. 'nsplits'를'1'로 설정하면 하나의 파티션 만 만들어지고 문제가 해결됩니다. –