2017-09-16 4 views
0

타밀어 (인도 현지 언어) 언어의 .pdf 파일에서 데이터를 추출합니다. R의 텍스트를 pdf 파일에서 추출한 후 일부 정크 또는 유니 코드 문자 형식 텍스트를 제공합니다 . 나는 그것이 pdf 파일에서와 같이 적절한 텍스트 또는 동일한 텍스트에 매핑 할 수없는거야, 여기이 나에게 내가 함께 노력유니 코드 문자를 언어로 매핑 R

"«îù£ñ¢«ð좬ì , âô¢ì£ñ¢ú¢ «ó£ Ì" 

같은 일부 정크 문자를 제공하는 코드

library(tm) 
library(pdftools) 
library(qdapRegex) 
library(stringr) 
library(textreadr) 

if(!require("ghit")){ 
    install.packages("ghit") 
} 
# on 64-bit Windows 
ghit::install_github(c("ropenscilabs/tabulizerjars", "ropenscilabs/tabulizer"), INSTALL_opts = "--no-multiarch") 
# elsewhere 
ghit::install_github(c("ropenscilabs/tabulizerjars", "ropenscilabs/tabulizer")) 
text <- extract_tables("D:/first.pdf") 
text[[1]][,2][3] 

입니다 유니 코드 형식 변경

library(stringi) 
stri_trans_toupper("ê¶ó®", locale = "Tamil") 

그러나 성공하지 못했습니다. 제안 사항이있을 수 있습니다.

감사합니다.

답변

2

텍스트가 성공적으로 추출되었고 인코딩을 변환하는 유일한 문제인 경우, iconv 기능이 작동한다고 생각합니다. "cp932"(동아시아 언어)로 인코딩 된 텍스트의 예를 제공합니다.

# text file written in cp932 
x <- readLines("test-cp932.txt", encoding="utf-8") 

x 
## [1] "\x82\xa0\x82肪\x82Ƃ\xa4" 
# this is garbled because the file has been read 
# in a wrong encoding 

iconv(x, "cp932", "utf-8") 
## [1] "ありがとう" 
# this means 'thank you' 

이렇게해도 문제가 해결되지 않으면 구문 분석 중에 텍스트가 오염되었을 수 있습니다.

또 다른 가능성은 원시 개체 (코드)로 문자열을 만들고 this과 같은 코드 매핑을 사용하여 원본 텍스트를 다시 형식화하는 것입니다.

charToRaw(x) 
## [1] 82 a0 82 e8 82 aa 82 c6 82 a4 
+0

내가 텍스트 ".pdf 파일에서 데이터를 분석 한 후 얻는 텍스트를 인코딩 솔루션을 찾거나 사용할 필요가 그것을 http://dev.neechalkaran.com/p/oovan.html

중 하나의 인코딩 패턴을 찾을 수 없습니다입니다 [1] ] [, 5] [2] [1] "-.M/S à£ à ±  ¢ à   £ £   ¢ à £    ¢  ¢ à ¢     ¢ \ r (Rep에 의해 그것의 \ rS.aÃμà ©  ¢ èà   ¢ à              ¢), V.à ¢ â,               ¢ \ r, V.à £        £ à £   £ £ ' "그리고 iconv (텍스트 [[1]] [, 5] [2],"cp932 ","utf-8 ")"-.M/S テウï¾,ï½ £ ï¾ƒï½ ± ï¾,ï½ ¢ テウï¾,ï £ £ テシï¾ïï½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½» ïï½ © ï¾,ï½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½» , – deepesh

+0

확실히 "cp932"가 아닙니다. 내가 익숙한 유일한 로컬 인코딩이기 때문에 예제에서 사용했습니다. 텍스트 인코딩이 가능한 인코딩을 웹에서 검색 할 수 있습니다. 나는 어떤 인코딩이 Tamali 언어에 자주 사용되는지 모른다. –

0

이 PDF는 유니 코드 형식이 아닙니다. 그리고 당신이 유니 코드 PDF를

관련 문제