타밀어 (인도 현지 언어) 언어의 .pdf 파일에서 데이터를 추출합니다. R의 텍스트를 pdf 파일에서 추출한 후 일부 정크 또는 유니 코드 문자 형식 텍스트를 제공합니다 . 나는 그것이 pdf 파일에서와 같이 적절한 텍스트 또는 동일한 텍스트에 매핑 할 수없는거야, 여기이 나에게 내가 함께 노력유니 코드 문자를 언어로 매핑 R
"«îù£ñ¢«ð좬ì , âô¢ì£ñ¢ú¢ «ó£ Ì"
같은 일부 정크 문자를 제공하는 코드
library(tm)
library(pdftools)
library(qdapRegex)
library(stringr)
library(textreadr)
if(!require("ghit")){
install.packages("ghit")
}
# on 64-bit Windows
ghit::install_github(c("ropenscilabs/tabulizerjars", "ropenscilabs/tabulizer"), INSTALL_opts = "--no-multiarch")
# elsewhere
ghit::install_github(c("ropenscilabs/tabulizerjars", "ropenscilabs/tabulizer"))
text <- extract_tables("D:/first.pdf")
text[[1]][,2][3]
입니다 유니 코드 형식 변경
library(stringi)
stri_trans_toupper("ê¶ó®", locale = "Tamil")
그러나 성공하지 못했습니다. 제안 사항이있을 수 있습니다.
감사합니다.
내가 텍스트 ".pdf 파일에서 데이터를 분석 한 후 얻는 텍스트를 인코딩 솔루션을 찾거나 사용할 필요가 그것을 http://dev.neechalkaran.com/p/oovan.html
중 하나의 인코딩 패턴을 찾을 수 없습니다입니다 [1] ] [, 5] [2] [1] "-.M/S à£ à ±  ¢ à   £ £   ¢ à £    ¢  ¢ à ¢     ¢ \ r (Rep에 의해 그것의 \ rS.aÃμà ©  ¢ èà   ¢ à              ¢), V.à ¢ â,               ¢ \ r, V.à £        £ à £   £ £ ' "그리고 iconv (텍스트 [[1]] [, 5] [2],"cp932 ","utf-8 ")"-.M/S テウï¾,ï½ £ ï¾ƒï½ ± ï¾,ï½ ¢ テウï¾,ï £ £ テシï¾ïï½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½» ïï½ © ï¾,ï½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½» , – deepesh
확실히 "cp932"가 아닙니다. 내가 익숙한 유일한 로컬 인코딩이기 때문에 예제에서 사용했습니다. 텍스트 인코딩이 가능한 인코딩을 웹에서 검색 할 수 있습니다. 나는 어떤 인코딩이 Tamali 언어에 자주 사용되는지 모른다. –