내 jupyter 노트북에 데이터 프레임으로 https://figshare.com/articles/On_screen_movie_kill_counts_for_hundreds_of_films/889719의 csv "Body Count 데이터 세트"를로드했습니다.
내 작업은 영화 MPAA 등급을 예측하기 위해 선형 회귀를 수행하는 것입니다. 내가 들었던 것은, 나의 데이터 벡터 X가 Body_Count, IsAction, IsThriller 등과 같은 컬럼을 포함해야한다고 들었다.
유감스럽게도, 모든 영화 장르에 레이블이 붙어 있기 때문에 불행히도, 나는 어떻게 나의 데이터 세트로부터 그러한 통계를 얻을 수 있을까? "스릴러 | 액션 | 드라마"처럼.
어떻게 할 수 있었는지 아이디어가 있습니까?팬더의 데이터 프레임을 다른 것으로 변환
0
A
답변
1
확인합니다. 그런 다음 데이터를이 결합하여 사용 pd.get_dummies()
을 .sum()
로 :
df = pd.concat([df.drop('Genre', axis=1), genres], axis=1)
df = df.set_index(['Film', 'Year', 'Body_Count', 'MPAA_Rating', 'Director', 'Length_Minutes', 'IMDB_Rating']).stack().reset_index(-1, drop=True)
df.columns = ['Genre']
df = pd.get_dummies(df).groupby(level=['Film', 'Body_Count']).sum()
df.head()
Fantasy ... Horror Music Musical \
Film Body_Count ...
24 Hour Party People 7 0.0 ... 0.0 1.0 0.0
28 Days Later 53 0.0 ... 1.0 0.0 0.0
28 Weeks Later 212 0.0 ... 1.0 0.0 0.0
30 Days of Night 67 0.0 ... 1.0 0.0 0.0
300 600 1.0 ... 0.0 0.0 0.0
Mystery Romance Sci-Fi Sport Thriller \
Film Body_Count
24 Hour Party People 7 0.0 0.0 0.0 0.0 0.0
28 Days Later 53 0.0 0.0 1.0 0.0 1.0
28 Weeks Later 212 0.0 0.0 1.0 0.0 1.0
30 Days of Night 67 0.0 0.0 0.0 0.0 1.0
300 600 0.0 0.0 0.0 0.0 0.0
War Western
Film Body_Count
24 Hour Party People 7 0.0 0.0
28 Days Later 53 0.0 0.0
28 Weeks Later 212 0.0 0.0
30 Days of Night 67 0.0 0.0
300 600 1.0 0.0
이 index
에서 Film
및 Body_Count
을 제거하려면
df = df.reset_index()
0
당신은 다양한 장르 유형에 새 열을 만들
genres = df.Genre.str.split('|', expand=True)
을 사용할 수 있습니다 밖으로 pandas.get_dummies
df = pd.DataFrame({'genre': ['action', 'thriller', 'drama'], 'kills':[50,100,150]})
print(df)
dummies = pd.get_dummies(df['genre'])
df = pd.concat([df,dummies], axis=1)
df = df.drop('genre',1)
print(df)
## -- End pasted text --
genre kills
0 action 50
1 thriller 100
2 drama 150
kills action drama thriller
0 50 1.0 0.0 0.0
1 100 0.0 0.0 1.0
2 150 0.0 1.0 0.0
관련 문제
- 1. 데이터 프레임을 KEGGGraph로 변환
- 2. 데이터 프레임을 벡터로 변환
- 3. 팬더의 인덱스에서 데이터 프레임을 병합/조인/연결하는 방법
- 4. 팬더 데이터 프레임을 CSV로 변환
- 5. 파이썬에서 데이터 프레임을 사전으로 변환
- 6. 건의 매트릭스로 데이터 프레임을 변환
- 7. 다른 주파수로 판다 데이터 프레임을 샘플링
- 8. 데이터 프레임 팬더의 고유 인덱스
- 9. 팬더의 데이터 유형이 SQL의 데이터 유형과 다른 이유
- 10. 팬더의 dataframe에 dicts의 목록을 변환
- 11. 팬더 데이터 프레임을 인덱스가있는 튜플 목록으로 변환
- 12. 데이터 프레임 팬더의 합계의 백분율
- 13. 파이썬 팬더의 계절 데이터 선택
- 14. MultiIndex 그룹으로 팬더의 데이터 프레임
- 15. 팬더 데이터 프레임을 특정 json 형식으로 변환
- 16. 어떻게 다른 팬더의 DataFrames에서 열을 가입합니까?
- 17. 다른 데이터 프레임을 기반으로 새 데이터 프레임을 만듭니다.
- 18. 여러 개의 데이터 프레임을 패널로 변환
- 19. 다른 하나에서 데이터 프레임을 뺍니다.
- 20. 팬더의 기묘한 데이터 조작
- 21. 팬더의 데이터 프레임 필터링
- 22. 팬더의 데이터 프레임 병합
- 23. 팬더의
- 24. 프레임을 iframe으로 변환
- 25. 문제 데이터 프레임을 디자인 매트릭스로 변환
- 26. 팬더의 목록을 사용하여 데이터 프레임의 행 제거
- 27. 다른 데이터 형식으로 변환
- 28. 다른 팬더의 dataframe의 정보를 사용하여 팬더의 dataframe 채우기
- 29. 최적화 : 데이터 프레임을 데이터 프레임 목록으로 분할하고 행당 데이터 변환
- 30. 데이터 프레임을 빈도 테이블로 변환 R
감사합니다 사용! 내가해야 할 또 하나의 일은 바디 카운트와 장르의 데이터를 매트릭스로 만들어 일부 회귀 작업을 수행 할 수있게하는 것입니다. 그러나 시체 수가 지수 인 것처럼 보입니다. 내가 어떻게 처리 할 수 있는지 알고 있니? – Kuba
결과에 .reset_index()를 사용하십시오. – Stefan
update with command를 참조하십시오. – Stefan