1
아래 스크립트를 사용하여 PDF에서 변환 된 HTML 파일에서 데이터를 추출하려고했습니다.XML에서 R을 사용하여 html로 데이터를 긁을 때 "스타일"정보 추출
temp.html <- scan(file=filename,what="character")
pagetree <- htmlTreeParse(temp.html, error=function(...){}, useInternalNodes = TRUE)
tx.raw <- getNodeSet(pagetree,"//div")
tx.raw
목록과 그 중 하나가 다음과 같이 표시됩니다 만들 :
tx[[170]]
[[170]]
<div style="position:absolute;top:985;left:748">
<nobr>
<span class="ft03">
971.72
</span>
</nobr>
</div>
내가 필요로하는 정보를 span
(예 : 971.72
)을 내부에, 그러나 나는 또한 수 있도록 div
에 style
필요 나에게 정확하게 그 조각이 데이터 인 곳을 안다 span
는 pdf 파일에있다. 스타일 정보도 어떻게 추출 할 수 있습니까? 감사.