저는 파이썬에서 HTML 문서의 문자열 목록을 컴파일하기 위해 REGEX를 사용하고 있습니다. 문자열은 td 태그 (<td>SOME OF THE STRINGS COULD BE HERE</td>
) 또는 div 태그 (<div style="line-height: 100%;margin:0;padding:0;">SOME STRINGS COULD ALSO BE HERE</div>
) 안에 있습니다.컴파일을 위해 파이썬에서 두 REGEX 결합하기
최종 목록 안에있는 문자열의 순서는 HTML 문서 안에 나타나는 순서와 일치해야하므로 두 경우 모두 고려하여이 문자열을 모두 컴파일 할 수 있도록 REGEX를 찾고 있습니다.
나는처럼 보이는 뭔가를 개별적으로 수행하는 방법을 알고 : 첫 번째 경우에 대한FindStrings = re.compile('(?<=\<td>)(.*?)(?=\</td>)')
MyList = re.findall(FindStrings, str(mydocument))
하지만 고유 REGEX 안에 두 경우를 결합하는 가장 효율적인 방법을 알고 싶습니다.
왜 beautifulsoup를 사용하지 않습니까? –