2014-10-17 1 views
4

현재 일부 텍스트 분석을 진행 중입니다. 영숫자 문자 만 유지하려고하지만 어떤 이유로 나는 문자 숫자 식으로 생각하지 않는 성가신 문자를 제거하는 데 어려움을 겪고 있습니다. 다음은 내가 다루고있는 것의 예입니다.g에서 g의 홀수 문자 제거

letters <- "ՄĄՄdasdas" 
letters <- gsub("[^[:alnum:]]", "",letters) 
letters 

> "ՄĄՄdasdas" 

여기서 내가 뭘 잘못하고 있니?

+0

,'GSUB ("[^ [: alnum :]]", "", 문자)'리턴' "Adasdas"'. R 버전 3.1.1 (2014-07-10) 플랫폼 : x86_64-w64-mingw32/x64 (64 비트); 로캘 영어 _ 오스트 레일 리아 .1252 – jbaums

답변

6

@konvas을보십시오. 시도 할 때의 문제점은 비 ASCII 문자가 로케일에서 영문자로 간주된다는 것입니다. 또 다른 옵션은 iconv을 사용하는 것입니다

내 시스템에서
iconv(letters, to='ASCII', sub='') 
3

는 어떻게이 상황에서 제대로 gsub를 사용하는 방법을 보여줍니다 gsub("[^A-Za-z0-9]", "", letters)