가끔씩 나는 언제 다른 것을 사용해야하는지 잘 모르겠습니다. 필자는 보통 모든 종류의 것들을 파이썬으로 파싱하지만이 질문을 HTML 구문 분석에 집중하고자합니다.정규식 또는 DOM/문자열 조작 만 사용해야합니까?
개인적으로 두 개 이상의 일반 요소 (예 : 뉴스 목록의 제목 및 본문)를 구문 분석해야 할 때 DOM 조작이 실제로 유용하다는 것을 알았습니다.
그러나 정규식을 작성하거나 단순히 문자열 조작을 원하는 값을 얻으려는 것이 명확하지 않은 상황에서 발견되었습니다. 특정 가상의 예 :
: 나는 앨범의 총 사진 수, 문제는이 방법을 사용하여 사진의 수를 구문 분석 얻을 수있는 유일한 방법을 얻을 수있다(190 1)
그래서 전체 HTML 문서에서 '190'을 얻어야합니다. HTML을 파싱하기위한 정규 표현식이 정확히 최선이 아니거나, 내가 항상 이해하고있는 것이지만, 정규식을 쓸 수는 있습니다. 다른 한편, DOM을 사용하는 것은 단순한 요소이기 때문에 압도적 인 것처럼 보입니다. 문자열 조작이 가장 좋은 방법 인 것처럼 보이지만 이와 비슷한 상황에서 그렇게 진행해야하는지는 확실하지 않습니다.
파이썬 (또는 다른 언어)을 사용하여 HTML 문서에서 이러한 단일 요소를 어떻게 구문 분석하겠습니까?