2012-03-01 4 views
0

내가 필요한 것은 사실 시작할 수있는 힌트입니다.Mahout 알고리즘 조언

나는 적어도 이론적으로 Mahout에 어느 정도 익숙하다. 어떻게 작동하는지, 어떻게 설정하는지 등을 알고 협업 필터링을 기반으로하는 간단한 추천 시스템을 구축 할 수있었습니다.

그러나 지금은 더 복잡한 알고리즘을 시도하고 있으며 다른 알고리즘에 대한 내용을 읽은 후에도 어떤 방향으로 나아갈 지 확신하지 못합니다.

어떻게 내가 원하는 것은 빨리 :

최종 목표는 하나의 스칼라 일부 "알려진"개체에 따라 개체의 집합의 각각의 (에 "점수")를 정의하는 것입니다. 엔티티는 서로 상호 작용하며, 알려진 점수는 알려지지 않은 점수에 영향을주고 정의합니다. 다음 예제를 통해 상상할 수 있습니다.

나는 하얀 옷을 입고 화려한 옷을 몇 개 가지고있다. 빨강, 파랑, 초록 ... 세탁기에 넣었습니다. 나는 하얀 색이 세탁 후에 어떤 색을 얻을지 알고 싶다. 고려해야 할

것들 :

  • 우리는 다른 "배우"로 세척하는 일련의 ... 어떤 옷에만 2에서 1, 3 세척, 그들 중 일부에 세척을 일부 그 (것)들의 전부는 안으로 씻기 다
  • 연속적으로 세척에서 이전에 백색 인 옷은 또한 나머지에 영향을 미치고 그러나 강하지 않기 때문에 (것과 같이 색깔이 같지 않다)
  • 어떤 색깔은 "색깔"로 것과 같이하지 않는다 다른 사람들만큼. 예를 들어 붉은 색은 옷의 대부분에 강한 영향을 미치지 만 초록색은 많지 않다.
  • 한 번의 세탁에 얼마나 많은 옷이 있는지에 따라 착색 효과가 달라진다. 당신은 흰색 셔츠와 빨간 셔츠를 씻어 경우, 다른 사람

에 영향을 미치는 경우 100 다른 화이트 셔츠

  • 옷 색깔 "을 잃고"하지 않습니다이 경우보다 훨씬 더 색 얻는다

    • 색상의 색조 (이 또한 위에서 언급 한 바와 같이 "착색력을"정의) : 당신이 계산하는 동안, 기관이 실제로이 할당 스칼라을 볼 수 있습니다. 색조는 0부터 1까지 숫자로 나타낼 수 있습니다. 착색력과 색수 사이의 일관성은 선형 적이 지 않다. 저울의 끝이 더 많은 채색력 (0과 1)을 갖는 것과 비슷합니다. 중간 (0.5)의 색이 덜하다
    • 색상이 "밝음"(원래 색 옷의 경우 1, 흰색 인 경우 0, 흰색은 0 임) 동시에 색조에 관계없이 채색력을 정의합니다.

    그래서 다시, 나는 알고 :

  • 내가 그들 중 일부의 원래 색상을 알고 연속되는 세탁 세척 옷

    • 가, 나머지는 처음에 백색
    내가 알고 싶은 무엇3210

    : - 세척

    문제의 끝 부분에있는 모든 옷의 색상은 내가 시작해야 알고리즘의 어떤 (유형) 모르겠입니다. 지금까지 읽어 주셨으면 좋겠다. 제게 뭔가 제안 해주세요.

    분명히 나는 ​​상세한 것은 묻지 않고 힌트 만 준다.

    감사합니다.

  • +0

    이것은 기계 학습 문제로 들리지 않습니다. 시뮬레이터를 코딩 할 수있는 것처럼 들립니다 ... 세탁 할 때마다 다른 옷의 색상과 채색력에 따라 흰색 옷의 색상과 채색력을 업데이트합니다. 코드 작성이 어렵지 않고 모든 정보를 보유하고있는 것처럼 들리지만 그렇지 않습니까? 기계 학습은 데이터로부터 확률 분포 (* 패턴 *으로 생각)를 추론하는 데 사용됩니다. 어떻게 적용되는지 모르겠습니다. – Diego

    +0

    AFAIK Mahout은 기계 학습 문제에만 국한되지 않습니다. 나는 그것이 적절한 도구라고 생각하고있었습니다. 왜냐하면 많은 양의 데이터로 작업했기 때문에 결과물은 고전적인 Mahout 작업과 비슷한 특성을 가지고 있기 때문입니다. 위의 문제는 MapReduce로 구현할 수 있다고 생각합니다. 그러나 기존의 유사한 알고리즘이 있는지 여부는 알 수 없습니다. 이 확장 성이 필요하기 때문에 Hadoop의 MapReduce 기반의 Mahout이 적절한 솔루션이라고 생각합니다. – gphilip

    답변

    0

    이 문제와 비슷한 것으로 생각되는 유일한 것은 PageRank입니다. 일종의 반복 시뮬레이션에 의해 계산됩니다. 각 페이지는 링크를 통해 흐르는 영향력 (색)을 가지고 있으며, 어떤 시점에서 페이지 영향이 정상 상태 (최종 색)에 도달합니다. PageRank 알고리즘을 살펴볼 수는 있지만 근본적으로 커다란 음모 색 매트릭스의 고유 벡터를 계산하는 문제입니다.