2013-09-05 5 views
1

현재 mahout을 가지고 놀고 있습니다. Mahout in Action 책을 구입했습니다. 전체 프로세스를 이해했으며 간단한 테스트 데이터 세트로 이미 성공적으로 수행했습니다.Apache Mahout 데이터베이스에서 시퀀스 파일

이제 분류 문제를 해결하고 싶습니다.

대상 변수가 발견됩니다. 대상 변수는 - 지금은 - x입니다. 데이터베이스의 기존 데이터는 이미 -1, 0 및 +1로 분류되었습니다.

우리는 SQL 쿼리로 선택하는 여러 가지 예측 변수를 정의했습니다.

다음은 제품의 속성입니다 : 언어, 국가, 범주 (상점), 제목, 설명.

public void appendToFile(String classification, String databaseID, String language, String country, String vertical, String title, String description) { 
    int count = 0; 
    Text key = new Text(); 
    Text value = new Text(); 

    key.set("/" + classification + "/" + databaseID); 
    //??value.set(message); 
    try { 
     this.writer.append(key, value); 
    } catch (IOException e) { 
     // TODO Auto-generated catch block 
     e.printStackTrace(); 
    } 
} 
:

지금 나는 그들을 직접 I 시퀀스 파일에 SQL 결과의 새로운 행이 처리 될 때마다 추가합니다 작은 도우미 클래스를 쓴위한 SequenceFile에 기록 할

제목 만 있다면 가치에 저장할 수 있습니다.하지만 특정 키에 country, lang 등과 같은 다중 값을 저장하려면 어떻게해야합니까?

도움 주셔서 감사합니다.

답변

0
당신이 서열 파일의 구조를 저장할 수 야해

, 그냥 단순히 나이브 베이 즈 같은 것을 사용하는 경우 기간의 계산 등의 모든 콘텐츠를 넣을 수있는 곳은 공백으로 구분 한 모든 텍스트,

덤프 , 그것은 구조에 관심이 없다.

그런 다음 분류하면 데이터베이스의 구조를 검색하십시오.