urlopen으로 웹 사이트를 엽니 다. 난 그냥 밖으로 올바른 형식 오는 소스를 인쇄 할 때 나는 각 문자는 그 자체가 라인의 각 라인을 통해 반복 할 때 그때 나는 그러나, 그래서Python : 웹 사이트 소스 코드에서 문자열을 찾는 데 문제가 있습니다.
source = website.read()
같은 변수에 웹 사이트의 소스 코드를 넣습니다. 예를 들어
나는 그것이 내가 필요이
<
H
T
M
L
... etc
처럼 보이는이
for line in source:
print line
작업을 수행 할 때 난 그냥이
<HTML> title</html>
과 같은 인쇄 문자열을 찾는다. hat은 "var"로 시작하여 전체 줄을 출력합니다.
유형 (소스) <유형 '유니 코드'> 또는이다. 둘 중 하나를 반복하면 문자열의 개별 문자를 얻을 수 있습니다. –
msw
그리고 정말로, 정말, 정말로 간단한 문자열 매칭으로 HTML을 파싱하고 싶지는 않습니다. http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained- tags # answer-1732454 – msw