정상적인 HTML이며 데이터를 스크랩 한 후 정리해야하는 일반적인 문제가 있습니다.
- 패키지
XML
- 이 페이지에서 다섯 번째 테이블의에
readHTMLTable
있는 페이지를 읽기 때문에 다섯 번째 요소
- 를 추출 할 첫 번째 행을 가지고 할당 :
다음은 트릭을 수행 테이블의 이름을
- 는 첫 번째 행을 삭제
코드 :
x <- readHTMLTable("http://www.bwea.com/ukwed/construction.asp",
as.data.frame=TRUE, stringsAsFactors=FALSE)
dat <- x[[5]]
names(dat) <- unname(unlist(dat[1, ]))
결과 데이터 : 정적 및 동적으로 생성 된 페이지 사이에 어떤 차이가 안보기의 클라이언트의 관점에서, 그래서
dat <- dat[-1, ]
'data.frame': 39 obs. of 10 variables:
$ Date : chr "September 2011" "August 2011" "August 2011" "August 2011" ...
$ Wind farm : chr "Baillie Wind farm - Bardnaheigh Farm" "Mains of Hatton" "Coultas Farm" "White Mill (Coldham ext)" ...
$ Location : chr "Highland" "Aberdeenshire" "Nottinghamshire" "Cambridgeshire" ...
$ Power(MW) : chr "2.5" "0.8" "0.33" "2" ...
$ Turbines : chr "21" "3" "1" "7" ...
$ MW Capacity : chr "52.5" "2.4" "0.33" "14" ...
$ Annual homes equiv*.: chr "29355" "1342" "185" "7828" ...
$ Developer : chr "Baillie" "Eco2" "" "COOP" ...
$ Latitude : chr "58 02 52N" "57 28 11N" "53 04 33N" "52 35 47N" ...
$ Longitude : chr "04 07 40W" "02 30 32W" "01 18 16W" "00 07 41E" ...
이 아직 전달되는 HTML입니다. – Thomas
이 질문의 전제는 사실 기반이 아닙니다. 편집해야합니다. – adamleerich