2014-02-25 3 views
1

다음 코드는 문자열을 구문 분석합니다.파일을 구문 분석하는 방법은 무엇입니까?

import lxml.html 

doc = lxml.html.document_fromstring("""<html> 
<body> 
    <span class="simple_text">One</span> tehfghhxt</br> 
    <span class="cyrillic_text">Второй</span> cyrcyrcyr</br> 
</body> 
</html> 
""") 

txt1 = doc.xpath('/html/body/span[@class="simple_text"]/text()[1]') 
print(txt1) 

동일한 문자열이 포함 된 파일을 구문 분석하는 방법을 알고 싶습니다. 동일한 디렉토리에 있습니다. 말해줘.

+0

초심자에게서 기대할 수있는 질문은 확실히 명확합니다. 대답은 http://lxml.de/parsing.html#parsing-html의'lxml' 문서에 명시 적으로 표시됩니다. 'StringIO()'는 문자열을 열린 파일로 만드는 방법입니다. 열린 파일 객체를'parse()'함수로 전달할 수있다. 그것은 심지어 파일의 이름을 받아들이고 그것을 당신을 위해 열 가능성이 높습니다. – pepr

답변

2
string = open('file_with_string.html', 'r').read() 
doc = lxml.html.document_fromstring(string) 
관련 문제