을 감안할 때 데이터를 생성, 나는이 내가 전에 두싯 (예 : 클러스터링)(tag_uri image_uri image_uri image_uri ...) 다음과 같은 형식으로 SequenceFile에게
http://flickr.com/photos/tags/100commentgroup http://flickr.com/photos/[email protected]/4019040356 http://flickr.com/photos/[email protected]/5651576112
http://flickr.com/photos/tags/100faves http://flickr.com/photos/[email protected]/5441742937
...
에 의해 추가 처리를 위해 하둡 SequenceFile 형식으로 만들어 놓을 필요 다음과 같이 입력을 csv (또는 arff)로 변환합니다.
http://flickr.com/photos/tags/100commentgroup,http://flickr.com/photos/tags/100faves,...
0,1,...
1,1,...
...
각 행에 하나의 태그가 설명되어 있습니다. 그런 다음 arff 파일은 추가 처리를 위해 mahout에서 사용하는 벡터 파일로 변환됩니다. arff 생성 부분을 건너 뛰고 대신 sequenceFile을 생성하려고합니다. 필자가 실수하지 않았다면, 내 데이터를 sequenceFile로 표현하기 위해 $ tag_uri를 키로, $ image_vector를 값으로 사용하여 각 행을 저장해야합니다. 이 작업을 수행하는 올바른 방법은 무엇입니까 (가능한 경우 각 행이 sequence_file에 어딘가에 포함되도록하기 위해 tag_url을 사용할 수 있습니까?).
일부 내가 찾은 참조하지만, 관련이 있다면하지 않도록 :
-
는 (나는이 양식에 내 매트릭스를 저장할 수 있습니까?) I 만 나열 이미지를 고려
- RandomAccessSparseVector (이 벡터를 사용하여 표현할 수 있습니까?)
- SequenceFile write
- SequenceFile explanation
@sean, 지난 주 메일 링리스트에서 저에게 답장을 보내 주셨습니다. :) 답장을 보내 주셔서 감사합니다. – Jeffrey04
네, 저도 똑같습니다. –