2014-02-13 1 views
1

R에서 대략적인 문자열 매칭을하고 있습니다.이 기법으로는 다소 익숙하지 않지만 x 문자열이 y 문자열의 일부와 정확히 일치하는 인스턴스를 찾고 싶기 때문에 Levenshtein 점수가 0 일뿐입니다 (이 점은 정확한 접근?).결과를 0을 포함하는 데이터 프레임 행 및 열로 어떻게 제한합니까?

결과를 부분 집합하는 가장 편리한 방법은 무엇입니까? 10k 열과 1k 행이 있기 때문에 효율적으로 결과를 시각화 할 수있는 방법이 있는지 확신 할 수 없습니다. 나는이 질문에서 전술의 부족에 대해 사과한다. 나는 이것에 대한 경험이 부족하다.

+1

환영 SO에, 우리가 어떤 데이터 모습을 볼 수있는 최소한의 데이터 세트가 없을 때 대답하기 어렵다 같은 코드와 일부 코드 또는 원하는 것을 기반으로합니다. 모든 데이터가 아닌 1000 * 10000 – Ananta

답변

0

이렇게하면 0을 포함하는 모든 행과 열이 유지됩니다. 마크의 데이터를 사용하여

set.seed(2234) 

my.data <- as.data.frame(matrix(sample(0:2,20,replace=TRUE), nrow=5)) 
my.data 

aa <- unique(which(my.data==0,arr.ind=TRUE)[,1]) 
bb <- unique(which(my.data==0,arr.ind=TRUE)[,2]) 

my.data2 <- my.data[sort(aa),sort(bb)] 
my.data2 

> my.data 
    V1 V2 V3 V4 
1 2 0 2 1 
2 2 2 1 2 
3 2 1 1 0 
4 2 2 2 1 
5 1 0 0 0 

> my.data2 
    V2 V3 V4 
1 0 2 1 
3 1 1 0 
5 0 0 0 
+0

데이터를 제공해주십시오.이 기능을 사용해보고 작동 방식을 알려 드리겠습니다. – user3304229

1

가 여기 apply으로 인덱스를 구축하는 방법 :

rows <- apply(my.data, 1, function(x) any(!x)) 
cols <- apply(my.data, 2, function(x) any(!x)) 

my.data[rows, cols] 
## V2 V3 V4 
## 1 0 2 1 
## 3 1 1 0 
## 5 0 0 0 
+0

감사합니다. 시도해 보겠습니다. – user3304229

관련 문제