2013-04-27 7 views
1

기계 학습 및 의사 결정 트리에 대한 질문이 있습니다. 나는 전산 생물학에서 일하고 (long RNA 2 차 구조 예측).기계 학습, 의사 결정 트리

나는 예측 된 RNA 2 차 구조의 정확성을 예측하는 프로그램을 가지고있다. 0,1,2부터 값 - 3,4,5,6,7에서 값 8

  • 갭 사이즈 (G) - 프로그램에 대한 입력 인수

    • 줄기 길이 (L)이다 주어진 RNA 시퀀스 60708090100120130140부터 값과 I (150)가 알고 싶어

    - 3,4,5,6,7, 8

  • 청크 길이 (c) 길이 (S)의 L, G, C 조합이 최대 정확도를 제공합니다.

    나는 시퀀스 길이가 S 인 50 개의 시퀀스 파일의 트레이닝 데이터 세트를 가지고 있으며이 시퀀스 파일 각각에 대해 최대 정확도 출력을 제공하는 L, G, C 입력 매개 변수 조합이 이미 알려져 있습니다.

    모든 L, G 및 C 범위 값에서 최대 정확도를 찾기 위해 어떤 특정 L, G 및 C 매개 변수를 사용할 수 있는지 알 수있는 방법이 있습니까?

  • 답변

    1

    문제 설명이 명확하지 않습니다.

    50 개의 학습 예제에서 학습 한 학습 학습 알고리즘이 필요하며 "시퀀스 파일"을 입력으로 받아 해당 시퀀스 파일의 L, G 및 C 출력 값으로 생성하는 예측 프로그램을 만듭니다.

    맞습니까?

    감독 학습 알고리즘에는 많은 선택 사항이 있습니다. 시퀀스 파일의 데이터는 정확히 무엇입니까? 그것은 실수의 벡터입니까? 어떤 구조를 가지고 있습니까? 시퀀스 파일에 대해 L, G 및 C를 "손으로"결정해야한다면 할 수 있습니까? 어떻게 할 건데?

    1

    매우 일반적인 요구 사항은 아니지만 세 가지 매개 변수 (L, G, C) 중에서 "가장 큰 영향 요인"을 찾고 싶습니다. 그러나 몇 가지 아이디어가 도움이 될 것으로 생각합니다.

    1. 당신은 여러 가지 의사 결정 (마다 두 세에서 매개 변수를 선택할 수 있기 때문에 세 나무) 세 개의 매개 변수 (한 나무), 두 개의 매개 변수를 사용하여 나무와 하나 개의 매개 변수를 만들 수있다 할 수있다 (물론, 세 나무) . 따라서 7 가지 의사 결정 트리를 가질 수 있습니다. 그런 다음 정확도 결과를 비교하여 최종 예측과 다른 매개 변수의 기여를 알 수 있습니다.

    2. 이 세 매개 변수의 상대 행렬과 최종 예측을 계산하면 최종 결과에 대한 기여도의 무게를 알 수 있습니다. 예측 일 다른 요인의 기여도는 일반적으로 선형이 아니기 때문에

    PS.You 요구 사항, genrenally이 아니라 좋은 아이디어를 (기계 학습을하는 요소 중 하나를 선택), 즉 더 많은 요소를 결합, 알고있다 기계 학습에서 입력 벡터에 일반적으로 더 나은 결과를 가져올 것입니다.

    행운을 빈다.