2013-05-20 2 views
1

데이터 분석 클러스터링에 WEKA 도구를 사용하고 있지만 일부 특성에서는 도메인 내에 많은 값이 있습니다. 특히, 나는 단백질에 관한 정보를 표현할 필요가 있으며, 내가 포함시켜야 할 정보는 그 기능과 관련된 용어이다.일부 속성에서 여러 값을 처리하는 방법은 무엇입니까?

"RNA 결합 단백질을" "컴플렉스 intracellularribosomeribonucleoprotein", "변환"을 "ribosomerRNA의 RNA bindingstructural 성분 결합"이 값은 예를 들어

동일한 속성 "기능"을 포함한다.

그리고 이러한 용어는 엄청나게 다양합니다.

나를 도와 줄 사람이 있습니까?

답변

1

일반적인 접근법은 n 다른 카테고리로 카테고리 변수를 2 진수 더미 변수 n으로 분할하는 것입니다. 예를 들어

는 :

gender = {male, female}는 다음과 같이 2 개 더미 변수를 다시 작성할 수 있습니다 : 귀하의 경우

  1. male = [0, 1]
  2. female = [1, 0]

, 함수가 서로 다른 여러 포함 할 것 값 (예 : 여러 기능이있는 1 개의 단백질). 더미 변수로도 쉽게 몰드 할 수 있습니다.

관련 문제