2014-09-28 2 views
1

자동 텍스트 분석을 수행하기 위해 여러 텍스트 파일을 읽으 려합니다. 내 파일은 txt 파일이고 list.files를 사용하여 디렉토리의 모든 파일을 나열합니다. 각 텍스트 파일은 뉴스 기사입니다. 코드는 다음과 같습니다.자동화 된 텍스트 분석을 위해 여러 텍스트 파일 읽기

lff <- list.files(path = "the path", pattern = paste('*.txt*',sep=""), full.names = TRUE, recursive = TRUE, include.dirs = TRUE) 
df<-ldply(lff, readLines) 

텍스트를 읽기 위해 readLines를 사용했지만이 명령을 사용하면 다음과 같은 오류가 발생합니다.

Error in list_to_dataframe(res, attr(.data, "split_labels")) : 
Results do not have equal lengths 

read.table은 내 분석에는 적합하지 않습니다. 어쨌든 각 줄마다이 텍스트를 가져 오려고합니다.

**

나는
df<-ldply(lff, readLines(warn=FALSE)) 

을 시도하지만이 파일을 가져 영원히했다. 나는 300 개 이상의 파일 만 가지고 있으므로 오래 걸리지 않을 것입니다. 문제가 무엇입니까?

**

각 파일은 다음과 같습니다.

스프링 트레이닝 경기장을위한 팜 플로리다 카운티위원회가 지난 주 토론 한 내용은 Brevard 카운티에서 Viera에서 Washington Nationals 스프링 트레이닝을 얼마나 유지해야하는지에 대한 논쟁과 조금 비슷해 보였습니다 . 숫자 만 더 컸다.

300+ 파일 목록이 있기 때문에 lff 개체에 300+ 행이 있습니다. 각 행의 각 텍스트를 가져 오려고합니다. 또한 각 기사의 날짜와 작성자와 같은 각 행에 대한 몇 가지 추가 데이터를 추가 할 것입니다.

미리 감사드립니다.

+0

여기에 텍스트 파일의 작은 상자를 붙여 넣을 수 있습니까? 나는 당신의 생각에 이르지 못합니다. 다음 분석을 뒷받침하고 싶은 구조는 무엇입니까? ('ldply'는'data.frame'을 줄 것입니다, 어떤 필드가'data.frame'을 만들지 설명 할 수 있습니까?) – hs3180

+0

@ hs3180 고마워, 제 질문을 편집했습니다. – user3077008

답변

0

나는 기사는 (그것이 파일 또는 ?입니다) 모르겠어요,하지만 난 당신이 필요합니다 생각합니다. PS

df <- ldply(lff, function(file) { 
    content <- readLines(file) 
    date <- smth_date 
    author <- smth_author 
    data.frame(content = content, date = date, author = author, stringsAsFactors = FALSE) 
}) 

는 : stringsAsFactors = FALSE이 자동 변환 요소는 항상 나에게 예상치 못한 버그를주는 것을 잊지 마세요.