2013-04-02 6 views
0

google scholar가 특정 검색어에 대해 제공하는 테스트 스 니펫에서 텍스트를 추출하려고합니다. 텍스트 스 니펫은 제목 아래에 검은 글자로 된 텍스트를 의미합니다. 는 현재 내가 파이썬을 사용하여 HTML 파일을 추출하기 위해 노력하고 있지만, 등등Google 학자에게서 텍스트를 추출하십시오.

/div><div class="gs_fl" ... 등 추가 테스트를 많이 포함되어 있습니다.

쉬운 텍스트 나 중복 된 텍스트가없는 텍스트를 쉽게 얻을 수있는 코드가 있습니까? "lxml이 설치 PIP"로

import lxml.html 

doc = lxml.html.fromstring(html) 
text = doc.xpath('//div[@class="gs_fl"]').text_content() 

당신은 LXML를 설치할 수는 있지만 그 종속성을 구축해야하며, 세부 사항은 플랫폼이 무엇인지에 따라 달라집니다 :

답변

1

당신은 HTML 파서가 필요합니다 .

+0

주어진 명령을 사용하면 전체 HTML 페이지를 구문 분석 할 수 있습니까? 아니면 매번 다른 xpath()를 제공해야합니까? –

+0

이 오류를 내게 알려줍니다 : - AttributeError : 'list'객체에 'text_content'속성이 없습니다. –

관련 문제