2013-05-04 1 views
0

데이터 분석 또는 신경 네트워크와 관련이있는 작업이 있습니다.일부 기능에 대한 계수 결정

Google의 파트너 인 취업 포털의 데이터 소스가 있습니다. 소스 값은 특정 직원에 관련된 다른 속성의 배열 인 :

  • 그의 \ 그녀의 성,
  • 나이, 경험
  • 년,
  • 포트폴리오 (수행 프로젝트 수) ,
  • 직업과 전문화 (웹 디자인, 웹 프로그래밍, 관리 등),
  • 다른 많은 (완전히 20 ~ 30 정도)

모든 직원의 급여 (시간당) 비율은 고유합니다. 따라서, 수학적으로, 우리는 어떤 기능

F (ATTR1, ATTR2, attr3, ...) = A *와 미지 ATTR1 + B * C * ATTR2 + ... + attr3

을 계수. 그러나 우리는 명시된 인수에 대한 함수의 결과를 알고 있습니다 (예를 들어, 20 년의 경험을 가진 남성 프로그래머와 포트폴리오에 포함 된 10 개의 프로그래머는 시간당 40 달러의 비율을 가지고 있습니다).

우리는 이러한 계수 (A, B, C ...)를 찾아야 만합니다. 따라서 직원의 급여를 예측할 수 있습니다. 이것이 가장 중요한 목표입니다.

또 다른 목표는 어떤 인수가 가장 중요한지, 즉 함수의 결과에 중대한 변경을 초래하는 인수를 찾는 것입니다. 그래서 결국 우리는 이렇게해야합니다 : "가장 중요한 속성은 수년 간의 경험이며, 그 다음에 포트폴리오, 그리고 나이 등입니다."

서로 다른 직업이 너무 많이 다를 수 있습니다. 예를 들어 관리자와 웹 디자이너를 비교할 수없는 경우가 있습니다. 이 경우 그룹별로 분류하고 각 그룹 별 등급을 따로 계산해야합니다. 그러나 결국 우리는 모든 그룹에 공통적 인 '공유 된'주장을 찾아야합니다.

신경 네트워크에 대해 생각하고 있습니다. 그러나 나는 그들에게 완전히 새로운 무엇을 해야할지 전혀 모른다. 악기, 어떤 알고리즘, 또는 의사 코드 샘플 등

매우 감사를 사용하는 -

은 정말 어떤 도움을 감사하겠습니다.

+0

검색 용어 : 선형 회귀, 최소 제곱 및 정규 방정식. – DrC

+0

감사합니다. DrC! 나는 그것을 인터넷 검색하려고합니다. – Spaceman

답변

0

(회귀)의 가장 기본적인 예는 입니다. 선형 함수를 사용하여 데이터를 모델링하고 매개 변수를 추정해야합니다.

실제로 이것은 고전적인 수학 통계의 일부입니다. 데이터 마이닝은 아니지만 훨씬 오래되었습니다.

다양한 방법이 있습니다. 이상 치가있을 가능성이 있으므로 RANSAC을 사용하는 것이 좋습니다.

중요성에 관해서는, 이것이 "가장 큰, A B 또는 C"로 떨어지지 않습니까?