R에서 상태 동시 발생 패턴을 순서대로 계산하는 방법, 즉 요소 순서가 반드시 중요하지 않은 그룹에서 작업하는 방법이 있습니까? 그 목적은보다 긴 그룹 내에서보다 큰 하위 그룹의 출현 빈도를 찾는 것입니다.하위 집합 구성원 공동 출현 및 그룹 알파벳 길이 계산
예를 들어, 입력 데이터 세트는 ...
a,b,c,d
b,c,d,a
c,d,b,a
a,b,c,d,e
b,c,d,a,e
a,b,c
...
(~ 깊은 10 넓은 열 및 1000 행까지의 것 '진짜'데이터 시퀀스) 이런 식으로 뭔가를 할 것이며, 그 결과는 아마도 것 보여주기 ...
abcd, abcd*
집합 또는 클래스로, 발생 횟수를 나타내는 개수와 함께 * 하위 집합 또는 '다른 위치의 회원'범주를 나타내며 점수는 length()
을 기준으로합니다. length()
이상을 반영하는 높은 점수
결과도 보여 것입니다 ... 다른 약간 희소 세트 또는 클래스로
abcde
.
그리고 마지막으로 ...
abc*
이 높은 카운트 점수를 가지고,하지만
length()
점수가 낮은.
정렬되지 않은 (disordered?) 그룹에서 작동하는 Traminer와 같은 것이 우수 할 것입니다. 계산 부하에 문제가있을 수 있지만 필자는 프로그램 작성시 이빨을 자르려면이를 고려해야합니다 (예 : 일종의 사소한 임계 값).
내가 글로벌 알파벳 주위에 가지고 추가해야합니다 제공
20 자 또는 요소가 있으며 행에 중복이있을 수 있습니다. –