0
정규식을 사용하여 모든 종류의 웹 페이지에서 텍스트를 추출해야합니다. 내 코드는 html 태그와 잘 작동하지만 스크립트 태그 사이에 들어있는 태그 및 속성의 불규칙 구문으로 인해 필자가 작성한 코드는 유용한 텍스트 외에 일부 스크립팅 데이터를 추출합니다. 그걸 피할 수있는 방법이 있습니까?regex와 python을 사용하여 웹 페이지에서 일반적인 텍스트 추출
def TextExtract():
page=urllib.urlopen(URL).read()
print "TEXT: "
for m in re.finditer("(?#extracts <TAG>TEXT till next <)(?s)<(?=[^!--]).+?>.*?(?=<)",page):
if(m!=None):
##print m.group(),"\n"
l=re.search("(?#extracts TEXT between > and <)(?s)(?<=>).*",m.group())
n=re.search("(?#discards script and style tags)(?s)(<style.*)|(<script.*)",m.group())
if(n==None):
print l.group()