RVest를 사용하여 블로그 텍스트를 긁어 모으고 특정 노드를 제외하는 간단한 방법을 고민하고 있습니다.노드 제외 RVest
AllandSundry_test <- read_html
("http://www.sundrymourning.com/2017/03/03/lets-go-back-to-commenting-on-the-weather/")
testpost <- AllandSundry_test %>%
html_node("#contentmiddle") %>%
html_text() %>%
as.character()
내가 ID의 "contenttitle"와 "commentblock"와 함께 두 개의 노드를 제외 할 : 다음은 텍스트를 가져옵니다. 아래에서는 'commentblock'태그를 사용하여 주석 만 제외합니다.
이 스크립트를 실행하면 그 결과는 단순히 날짜가되며 나머지 텍스트는 모두 사라집니다. 어떤 제안?
나는 답을 찾기 위해 많은 시간을 보냈지 만, R (그리고 html)을 처음 사용하기 때문에 이것이 확실한 것이면 양해 해 주셔서 감사합니다.
당신이 긁어 모으고 싶었던 URL을 제공해 주시겠습니까? 나는 당신의 질문의 요지를 이해하지 못했습니다. – Bharath
응답 해 주셔서 감사합니다. 내가 사용하고있는 정확한 예를 사용하여 질문을 편집했습니다. 도와 주셔서 감사합니다. –