2010-05-06 4 views
0

urlopen으로 웹 사이트를 엽니 다. 난 그냥 밖으로 올바른 형식 오는 소스를 인쇄 할 때 나는 각 문자는 그 자체가 라인의 각 라인을 통해 반복 할 때 그때 나는 그러나, 그래서Python : 웹 사이트 소스 코드에서 문자열을 찾는 데 문제가 있습니다.

source = website.read() 

같은 변수에 웹 사이트의 소스 코드를 넣습니다. 예를 들어

나는 그것이 내가 필요이

< 
H 
T 
M 
L 
... etc 

처럼 보이는이

for line in source: 
     print line 

작업을 수행 할 때 난 그냥이

<HTML> title</html> 

과 같은 인쇄 문자열을 찾는다. hat은 "var"로 시작하여 전체 줄을 출력합니다.

+0

유형 (소스) <유형 '유니 코드'> 또는 이다. 둘 중 하나를 반복하면 문자열의 개별 문자를 얻을 수 있습니다. – msw

+3

그리고 정말로, 정말, 정말로 간단한 문자열 매칭으로 HTML을 파싱하고 싶지는 않습니다. http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained- tags # answer-1732454 – msw

답변

5

read() 대신 readlines()를 사용하여 선 목록을 얻으십시오.

+0

Ok 데이터를 찾았습니다. 문제는 데이터가 총 문자열이라는 것입니다. var myData = [0123] 그룹을 어떻게 분리 할 수 ​​있습니까? – j00niner

+0

질문을 편집하고 원하는 것을 보여주십시오. – miles82

1

또는 사용 :

for line in source.split("\n"): 
    ... 
관련 문제