2011-02-17 6 views
2

데이터 세트를 원래 형식으로 리버스 엔지니어링해야합니다. 원래 데이터 세트는 여러 특성을 가진 여러 사용자가 방에 들어가고 버튼을 일부 클릭하는 프로세스에서 파생되었습니다. 열 변수는 지시자 형태로되어있어서 사용자가 버튼을 클릭하거나 특정 특성을 가지고있는 경우에는 이것이 하나로 기록되고 그렇지 않은 경우 0으로 표시됩니다. 이 데이터 세트는 특성 유형이 두 개의 특성 변수로 표시된 관측치 인 양식으로 변환됩니다. 이 새로운 데이터 세트는 두 가지 특성, 양 및 버튼 클릭 수를 가진 사용자를 보여줍니다. 이것은 또한 모든 사용자를 포함합니다. 내 설명은 그래서 여기에 깨끗한하지 않을 수 있습니다 내가 그하지만 너무 효율적으로 될 수 없습니다 해결하기 위해 찾아 알고리즘의 몇 가지 유형을 사용하여 생각하고 힘 설명을데이터 세트 조작

enter image description here

도움이 될 이미지입니다.

+0

그래서 하단의 데이터를 문서 상단의 데이터로 리버스 엔지니어링하려고합니다. – dfb

+0

예 ............ – kogilvie

+0

@ user6x10^5 사용했던 필기체 글꼴은 무엇입니까? 덕분에 –

답변

1

일반적으로 불행히도 데이터 세트를 명확하게 리버스 엔지니어링 할 수는 없습니다. 순간 동작 열을 무시하고, 다음과 같은 두 가지 데이터 세트를 고려해야합니다

A B C 
1 1 0 
1 1 0 
1 0 1 
1 0 1 
0 1 1 
0 1 1 
1 0 0 
0 1 0 
0 0 1 

내가 잘못 해요하지 않는 한,이 두 데이터 :

A B C 
1 1 1 
1 1 0 
0 1 1 
1 0 1 
1 0 0 
1 0 0 
0 1 0 
0 1 0 
0 0 1 
0 0 1 

데이터 세트 2

:

데이터 세트 1 세트는 각 특성 쌍에서 동일한 수의 사용자를 표시합니다.

A A 5 
A B 2 
A C 2 
B B 5 
B C 2 
C C 5 

"이봐 요, 첫 번째 데이터 세트는 10 명의 사용자가 있지만 두 번째 데이터 세트는 9 개뿐입니다. 총 사용자 수를 얻을 수 있다면 내 문제가 해결 될까요?"대답은 거의 없습니다. 특성이 세 개 이하인 경우 대답은 예입니다 (Inclusion-exclusion Principle 참조). 그러나 특성이 3 가지 이상인 경우 대답은 '아니오'입니다. 총 사용자 수가 동일한 유사 모호한 예제를 구성 할 수 있습니다.

0

나는 가능한 무차별 방안이 될 수 있다고 생각한다 : 나는 총 사용자 수와 행동 수를 얻었으므로 나는 특성의 수를 알아낼 수있다.

  • 우선 원래와 동일한 크기로하지만 제로
  • 동일한 모든 관측 데이터 구조를 생성 할 수 찾아 주어진 특성
  • 있는 사용자 및 작업에 설정된 소정의 데이터를 검색 데이터 B와 A 및 B의 특성을 사용자 및 작업에 대해 설정하고, 데이터가 적절
  • "" "" "" "C와 및 & C 및 B & C 특성 데이터가 적절히 설정 조정.
설정 조정

저는 A, B, C까지만 해봤지만 그 외형으로 보면 더 많은 특성을 가지기 때문에 좀 더 복잡해집니다. 왜냐하면 대부분 그 모두의 교차점을 검색해야하기 때문입니다. 또한 많은 엔트리가 중복되기 때문에 주어진 데이터 세트를 줄일 수 있습니다. 예를 들어 C A는 A C와 같습니다.

이전 포스터가 언급 한 것처럼

sol image

0

, 데이터 세트는 독특한 될 수 없습니다,하지만 당신은 또 다른 문제가있을 수 있습니다 : 데이터 세트의 크기가 무엇입니까? 직관적으로,이 문제는 NP 어려운 것 같습니다. 문제가 단순히 제약 조건 (두 번째 눈금)을 충족하는 행렬 n by k (첫 번째 눈금 : n 참가자, k 특성)을 찾으면 모든 가능한 조합을 시도해야합니다. 특성 당 지정된 인원수를 갖는 솔루션을 시도하는 것만으로도이를 제한 할 수 있지만, 최악의 경우 최악의 경우에는 여전히 (n choose n/2)^k의 조합이 될 것입니다.

+0

. 나는 처음부터 그것이 NP 하드일지도 모른다라고 상상했다 – kogilvie