교육 데이터로 LibSVM에 공급할 파일에 레이블이 지정된 인스턴스 (데이터) 집합을 나타내려고합니다. this 질문에 언급 된 문제. 그것은LibSVM 입력 형식
- 로그인 날짜
- 로그인 시간
- 위치 (국가 코드?)이 포함됩니다 주
- 정품
- 의 날 (0 - 비 정통 일 - 정통) - 레이블 지정
어떻게이 데이터를 SVM에 입력하도록 포맷 할 수 있습니까?
교육 데이터로 LibSVM에 공급할 파일에 레이블이 지정된 인스턴스 (데이터) 집합을 나타내려고합니다. this 질문에 언급 된 문제. 그것은LibSVM 입력 형식
어떻게이 데이터를 SVM에 입력하도록 포맷 할 수 있습니까?
데이터 형식이나 데이터 변환 방법에 대해 묻는 중입니까? 후자의 경우이를 수행 할 올바른 방법을 찾기 위해 실험해야합니다. 일반적인 아이디어는 데이터를 명목상 또는 서수 값 속성으로 변환하는 것입니다. 이들 중 일부는 간단합니다 - # 4, # 6 -이 중 일부는 힘들 것입니다 - # 1- # 3.
예를 들어, # 1을 일, 월, 년의 세 가지 속성으로 표현하거나, 하나를 UNIX와 유사한 타임 스탬프로 변환하여 하나만 표현할 수 있습니다.
IP는 훨씬 더 어렵습니다.이를 의미있는 서수 값으로 변환하는 직접적인 방법은 없습니다. 모든 IP를 공칭 속성으로 사용하면 문제에 따라 유용하지 않을 수 있습니다.
일단이 사실을 알게되면 데이터를 변환하고 LibSVM 문서를 확인하십시오. 일반적인 형식 뒤에는 다음과 같이 표시됩니다. 즉, +1 1:0 2:0 ..
등
나는 이전 답변에 진술되지 않은 가정이 있다고 생각합니다. 말하지 않은 가정은 libSVM의 사용자가 범주화 된 데이터를 분류 자에 넣는 것을 피해야한다는 것을 알고 있다는 것입니다.
예를 들어, libSVM은 국가 코드를 어떻게 처리해야할지 모릅니다. 어떤 방문자가 사이트에서 물건을 살 가능성이 가장 높은지 예측하려는 경우 국가 코드 목록에서 미국이 차드와 니제르 사이에 있으면 문제가 발생할 수 있습니다. 미국의 팽창은 그 근처에 위치한 국가에 대한 예측을 왜곡 할 가능성이 있습니다.
이 문제를 해결하려면 고려중인 국가 ('아마도'다른 카테고리)별로 하나의 카테고리를 만들어야합니다. 그런 다음 분류 할 각 인스턴스에 대해 인스턴스가 속한 카테고리를 제외하고 모든 국가 카테고리를 0으로 설정합니다. libSVM 스파 스 파일 형식으로이 작업을 수행하려면 큰 문제는 아닙니다.
위치 및 IP 주소가 겹치므로 하나만 선택해야합니다 (어떤 것이 가장 적합한 지 알아보기위한 실험). –
IP 주소를 제거했습니다 – ruwanego
질문에서 제거하지 않아도됩니다. –