2014-03-27 3 views
1

으로 파싱합니다. 폴더에 200 개의 xml 파일이 있습니다. 폴더의 모든 xml 파일을 구문 분석하여 텍스트 마이닝 목적으로 단일 데이터 프레임으로 변환하고 싶습니다.여러 xml 파일을 단일 Dateframe으로 R

library(XML) 
d1 <- "C:\\Users\\Administrator\\Documents\\file.xml" 
doc1 <- xmlParse(d1) 
Data <- xmlToDataFrame(nodes=getNodeSet(doc1,"//Column1"))[c("Column2","Column3","Column4","Column5","Column6")] 

감사

+1

당신은 수에 의해 권고로 아래의 코드가 작동 : - 단일 XML 파일

은 내가 아래 처리하는 코드와 잘 작동이 'list.files()'로 폴더/디렉토리의 모든 파일 이름을 가져온 다음 각 파일을 순회하기 위해'plyr()' "apply"함수 (prbly'ldply()') 중 하나를 사용하고,'xmlParse()'&'xmlToDataFrame()'을 호출하고 전체를 반환합니다 결과는 data.drame으로 – hrbrmstr

+0

당신의 제안에 기반하여 아래의 코드를 사용했습니다 : 당신이 전달하려고했던 것입니다 :'setwd ("E :/xxx/SplitFIles /") files <- list.files() parse_xml < ("Column2", "Column3", "Column4", "Column5", "Column1") - 함수 (FileName) {doc1 <- xmlParse (FileName) doc <- xmlToDataFrame (노드 = getNodeSet (doc1, "// Column1")) "Column6")]} 데이터 <- ldply (files, parse_xml)' – RUser

답변

3

hrbrmstr

setwd("E:/xxx/SplitFIles/") 
    files <- list.files() 
    parse_xml <-function(FileName) { 
    doc1 <- xmlParse(FileName) 
    doc <- xmlToDataFrame(nodes=getNodeSet(doc1,"//Column1"))[c("Column2","Column3","Column‌​4","Column5","Column6")] 
    } 
    Data <- ldply(files,parse_xml) 
관련 문제