2017-09-24 4 views
-1

저는 도시에서 가지고있는 자전거 대여 서비스의 데이터를 MySQL 데이터베이스에 기록하는 개인 프로젝트를 진행하고 있습니다. 스크립트는 30 분마다 실행되며 모든 자전거 스테이션 및 무료 자전거마다 데이터를 기록합니다. 그런 다음 데이터베이스에 2 개월 동안의 데이터 로깅을 제공하는 예측과 같이 현재 각 스테이션의 가용성을 평균으로 계산합니다.기계 학습을 프로젝트에 적용 할 수 있는지 확인하는 방법은 무엇입니까?

나는 컴퓨터 학습에 대해 조금 읽었으며 조금 배우고 싶습니다. 미래에 ML로 데이터를 모델링하고 더 나은 예측을 내릴 수 있습니까?

답변

1

대답은 '예'입니다.

첫 번째 단계는 데이터가있는 것입니다. 당신은 응답 (무료 자전거)과 그것이 변화하는 몇 가지 특징 (시간, 위치)을 가지고 있습니다. 요소에 대한 값을 평균화하여 기본 조건부 평균 모델을 이미 적용했습니다. 휴일 또는 로컬 이벤트 플래그와 같은 일부 일정 관리 이벤트로 위치에 대해 알고있는 데이터를 보강 할 수 있습니다.

관찰 당 하나의 행이있는 데이터 세트를 준비하고 MAPE (Mean Absolute Percentage Error)와 같은 측정 항목에서 일정 기간 동안 현재 예측 프로세스의 정확도를 벤치마킹합니다. 유효 기간에 대한 예측 (평균)에 유효 기간 내의 데이터가 포함되지 않도록하십시오! 이 기간의 데이터를 사용하여 시도하는 다른 모델의 유효성을 검사하십시오.

나머지 데이터의 일부를 테스트 세트로 분할하고 나머지는 교육용으로 사용하십시오. 많은 양의 데이터가있는 경우 일반적인 교육/테스트 분할은 70/30입니다. 데이터가 작 으면 90/10으로 내려갈 수 있습니다.

교육 세트에서 하나 이상의 기계 학습 모델을 학습하고 테스트 세트에서 성능을 주기적으로 점검하여 일반화 성능이 계속 향상되는지 확인하십시오. 많은 교육 알고리즘 구현이이를 자동으로 관리하고 과다로 인해 테스트 성능이 저하되기 시작하면 자동으로 중지됩니다. 이것은 현재의 직선 평균보다 기계 학습의 큰 이점입니다. 일반화 된 것을 배우고 그렇지 않은 것을 버리는 능력.

유효성 집합을 예측하여 MAPE를 계산하고 모델의 MAPE를 동일한 기간에 원래 프로세스의 MAPE와 비교하여 각 모델의 유효성을 검사합니다. 행운을 빌며 기계 학습에 대해 알게됩니다!

관련 문제