regex와 python을 사용하여 웹 페이지에서 일반적인 텍스트 추출

정규식을 사용하여 모든 종류의 웹 페이지에서 텍스트를 추출해야합니다. 내 코드는 html 태그와 잘 작동하지만 스크립트 태그 사이에 들어있는 태그 및 속성의 불규칙 구문으로 인해 필자가 작성한 코드는 유용한 텍스트 외에 일부 스크립팅 데이터를 추출합니다. 그걸 피할 수있는 방법이 있습니까?regex와 python을 사용하여 웹 페이지에서 일반적인 텍스트 추출

def TextExtract(): 
    page=urllib.urlopen(URL).read()  
    print "TEXT: " 
    for m in re.finditer("(?#extracts <TAG>TEXT till next <)(?s)<(?=[^!--]).+?>.*?(?=<)",page): 
     if(m!=None): 
      ##print m.group(),"\n" 
      l=re.search("(?#extracts TEXT between > and <)(?s)(?<=>).*",m.group()) 
      n=re.search("(?#discards script and style tags)(?s)(<style.*)|(<script.*)",m.group()) 
      if(n==None): 
       print l.group()

출처

2012-03-03 user1246197

Don't parse html with regex. 대신 인기있는 파이썬 라이브러리 lxml.html을 사용하십시오.

출처

2012-03-03 01:24:51

regex와 python을 사용하여 웹 페이지에서 일반적인 텍스트 추출

답변

관련 문제