2016-12-19 1 views
0

가정하자 내가 통해 읽기 CSV에 대해 다음 열이 노드 '리더 파일'을 읽은 후변형 덜 자주 사용되는 값

id, name, city, income 

을, 나는 열 '도시'는 엄청난 수의 포함되어 있음을 알 고유 값의

  1. 가 'K' '도시'
  2. '기타'
같은 것을 보유하는 가장 빈번한 'K'없는 것들을 수정하기위한 가장 자주있는 값을 알고 내가 원하는 :

예 :

id, name, city, income 
1, Person 1, New York, 100.000 
2, Person 2, Other, 90.000 
3, Person 3, New York, 50.000 
4, Person 4, Other, 60.000 
: K를 선택

id, name, city, income 
1, Person 1, New York, 100.000 
2, Person 2, Toronto, 90.000 
3, Person 3, New York, 50.000 
4, Person 4, Seattle, 60.000 

내가 다음 표를 생성하려면, 1 될

'New York'이 원래 테이블에서 '도시'의 가장 자주 사용되는 값이기 때문에 이런 현상이 발생합니다.

내가 Knime을 사용하여 어떻게 할 수 있는지 알고 있습니까?

고맙습니다.

답변

2

CSV Reader를 사용하여 데이터를 읽을 수 있습니다. 통계 및 행 필터 노드를 사용하면 가장 자주 k 개의 값을 찾을 수 있습니다. 그 중 GroupBy를 사용하여 콜렉션 셀을 만들 수 있습니다. 해당 컬렉션 값을 사용하면 유사한 규칙 집합을 사용하는 규칙 엔진을 사용할 수 있습니다.

$city$ IN $most frequent cities$ => $city$ 
TRUE => "Other" 
관련 문제