Python : 웹 사이트 소스 코드에서 문자열을 찾는 데 문제가 있습니다.

urlopen으로 웹 사이트를 엽니 다. 난 그냥 밖으로 올바른 형식 오는 소스를 인쇄 할 때 나는 각 문자는 그 자체가 라인의 각 라인을 통해 반복 할 때 그때 나는 그러나, 그래서Python : 웹 사이트 소스 코드에서 문자열을 찾는 데 문제가 있습니다.

source = website.read()

같은 변수에 웹 사이트의 소스 코드를 넣습니다. 예를 들어

나는 그것이 내가 필요이

< 
H 
T 
M 
L 
... etc

처럼 보이는이

for line in source: 
     print line

작업을 수행 할 때 난 그냥이

<HTML> title</html>

과 같은 인쇄 문자열을 찾는다. hat은 "var"로 시작하여 전체 줄을 출력합니다.

출처

2010-05-06 j00niner

유형 (소스) <유형 '유니 코드'> 또는 이다. 둘 중 하나를 반복하면 문자열의 개별 문자를 얻을 수 있습니다. – msw

그리고 정말로, 정말, 정말로 간단한 문자열 매칭으로 HTML을 파싱하고 싶지는 않습니다. http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained- tags # answer-1732454 – msw

read() 대신 readlines()를 사용하여 선 목록을 얻으십시오.

출처

2010-05-06 07:08:04 miles82

Ok 데이터를 찾았습니다. 문제는 데이터가 총 문자열이라는 것입니다. var myData = [0123] 그룹을 어떻게 분리 할 수 있습니까? – j00niner

질문을 편집하고 원하는 것을 보여주십시오. – miles82

또는 사용 :

for line in source.split("\n"): 
    ...

출처

2010-05-06 07:09:50 wump

Python : 웹 사이트 소스 코드에서 문자열을 찾는 데 문제가 있습니다.

답변

관련 문제