2017-12-29 1 views
0

저는 데이터 과학에 익숙하지 않고 데이터 간의 관계를 탐구하고 싶습니다. 556784 X 60 개의 행과 열을 포함하는 매우 큰 데이터 집합이 있습니다. 신경망에 공급하기 위해 무시할 변수가 있습니다. 선형 사용 & & 다중 배제을 사용하면 Xlabel과 Ylabel 간의 관계를 찾을 수 있습니다. 그러나 거대한 데이터 세트에서 회귀 분석 기법을 사용하면 실제로 도움이됩니까? 또는 어떤 데이터가 문제에 정말로 중요하고 어떤 데이터가 아닌지를 찾는 다른 방법은 없을까요?팬다 : 큰 데이터 집합의 데이터 간의 관계 찾기

나는 이론적 인 질문을 안다. 그러나 나는 더 나아가는 데 정말로 도움이된다. 감사합니다.

답변

1

가 나는 또한 DS에서 멍청한 놈,하지만 난 내가 당신에게 몇 가지 아이디어를 줄 수 있다고 생각 :

    당신이 (당신의 데이터가 작업중인 데이터의 종류에 따라 치료 방법이 숫자에
  • , 텍스트 또는 일종의 시계열)
  • 일부 플롯을 만들 때 직접 탐색하는 것이 좋습니다.
  • 데이터의 비교적 적은 부분을 사용하여 계산 시간을 줄일 수 있습니다.
  • NN에 실제로 필요한 것이 있습니까? 그것은 해석하기가 어렵고 훈련에 시간이 걸리는 아주 불분명 한 결과를 제공합니다. 아마도 "클래식"모델로 먼저 시작하고 좋은 기능 엔지니어링을 시도해야 할 것입니다.

http://scikit-learn.org/stable/modules/preprocessing.html#preprocessing

나는이 몇 가지 희망 :

  • 마지막으로, 데이터 전처리 장에 대한 sklearn 설명서 (나는 정말 좋은 찾을 수있는) 확인하실 수 있습니다, 나는 그것이 함께, 시도해 볼 수있는 몇 가지 아이디어를 줄 것이라고 생각 도움이 될 것입니다.

  • +0

    조언을 주셔서 감사합니다 ... – Madhi

    +0

    아마도 데이터 예제를 공유 할 수 있다면 더 많은 도움을 얻을 수 있습니다. 이를 위해 다음과 같이 결정할 수 있습니다. https://stackoverflow.com/questions/20109391/how-to-make-good-reproducible-pandas-examples –

    관련 문제