2011-03-13 5 views
4

교육 데이터로 LibSVM에 공급할 파일에 레이블이 지정된 인스턴스 (데이터) 집합을 나타내려고합니다. this 질문에 언급 된 문제. 그것은LibSVM 입력 형식

  1. 로그인 날짜
  2. 로그인 시간
  3. 위치 (국가 코드?)이 포함됩니다 주
  4. 정품
  5. 의 날 (0 - 비 정통 일 - 정통) - 레이블 지정

어떻게이 데이터를 SVM에 입력하도록 포맷 할 수 있습니까?

+0

위치 및 IP 주소가 겹치므로 하나만 선택해야합니다 (어떤 것이 가장 적합한 지 알아보기위한 실험). –

+0

IP 주소를 제거했습니다 – ruwanego

+0

질문에서 제거하지 않아도됩니다. –

답변

4

데이터 형식이나 데이터 변환 방법에 대해 묻는 중입니까? 후자의 경우이를 수행 할 올바른 방법을 찾기 위해 실험해야합니다. 일반적인 아이디어는 데이터를 명목상 또는 서수 값 속성으로 변환하는 것입니다. 이들 중 일부는 간단합니다 - # 4, # 6 -이 중 일부는 힘들 것입니다 - # 1- # 3.

예를 들어, # 1을 일, 월, 년의 세 가지 속성으로 표현하거나, 하나를 UNIX와 유사한 타임 스탬프로 변환하여 하나만 표현할 수 있습니다.

IP는 훨씬 더 어렵습니다.이를 의미있는 서수 값으로 변환하는 직접적인 방법은 없습니다. 모든 IP를 공칭 속성으로 사용하면 문제에 따라 유용하지 않을 수 있습니다.

일단이 사실을 알게되면 데이터를 변환하고 LibSVM 문서를 확인하십시오. 일반적인 형식 뒤에는 다음과 같이 표시됩니다. 즉, +1 1:0 2:0 ..

+0

IP 주소는 이전 (또는 가장 일반적인) 사용자 IP 주소가 좋은 기능 일 수 있으며 이진 파일 일 수 있습니다. –

+0

그래서 .. 단순히 날짜 (dd/mm/yyyy), 시간 (hh : mm - 24h 형식), 위치 (국가 코드 - 간단히하기 위해), 요일), 진정성 (1 또는 0)이 달성하기 위해 .. 내가 아니야? – ruwanego

+0

날짜와 같은 숫자가 아닌 형식을 사용할 수 없습니다. 여기서는 3 차원 (일/월/년)과 한 차원 (1972 년 이후 초)을 구분합니다. 어느쪽으로 든 전환을해야합니다. – dfb

1

나는 이전 답변에 진술되지 않은 가정이 있다고 생각합니다. 말하지 않은 가정은 libSVM의 사용자가 범주화 된 데이터를 분류 자에 넣는 것을 피해야한다는 것을 알고 있다는 것입니다.

예를 들어, libSVM은 국가 코드를 어떻게 처리해야할지 모릅니다. 어떤 방문자가 사이트에서 물건을 살 가능성이 가장 높은지 예측하려는 경우 국가 코드 목록에서 미국이 차드와 니제르 사이에 있으면 문제가 발생할 수 있습니다. 미국의 팽창은 그 근처에 위치한 국가에 대한 예측을 왜곡 할 가능성이 있습니다.

이 문제를 해결하려면 고려중인 국가 ('아마도'다른 카테고리)별로 하나의 카테고리를 만들어야합니다. 그런 다음 분류 할 각 인스턴스에 대해 인스턴스가 속한 카테고리를 제외하고 모든 국가 카테고리를 0으로 설정합니다. libSVM 스파 스 파일 형식으로이 작업을 수행하려면 큰 문제는 아닙니다.

관련 문제