1
일부 텍스트 마이닝을 수행하기 위해 Oracle DB에서 일부 데이터를 추출합니다. 내 데이터가 UTF8이고 vocab에서 처리 할 수 없습니다.리스트를 토큰 화하는 것이 UTF8에서 작동하지 않습니다.
library(text2vec);
library(DBI);
Sys.setenv(TZ="+03:00");
drv=dbDriver("Oracle");
con=dbConnect(drv,username="user","pass",dbname="IP:port/servicename");
list=dbGetQuery(con,statement = "select * from test");
it_list = itoken(list$FNAME,
preprocessor = tolower,
tokenizer = word_tokenizer,
ids = list$ID,
progressbar = FALSE);
vocab = create_vocabulary(it_list, ngram = c(ngram_min = 1L, ngram_max =2L));
하지만 영어 단어가 vocab에 있습니다.
플랫폼 x86_64의-W64-mingw32 아치 x86_64의 :
- 목록 변수 객체 (
load()
으로로드 할 수 있습니다)- 나는 창
- R.version을 사용하여이 link에 존재
os mingw32
시스템 x86_64, mingw32
상태
주요 3
작은 3.0
2016 년
월 05
일 03
SVN 레브 70,573
언어 R R 버전 3.3.0의 오라클 배포를 version.string
(2016-05- 03) 별명 추정 교육용
페르시아어 기호입니다 : – parvij
하지만 알파벳은 동일하지 않습니까? –
네 말이 맞아, 독일어와 영어 알파벳과 다르다. – parvij