1

내 응용 프로그램에는 텍스트 부분과 마찬가지로 지정된 URL에서 보이는 내용이 필요하며 HTML에는 머리글 또는 바닥 글 데이터가 없습니다. 지금은 같은 것을 얻기 위해 beautifulsoupboilerpipe을 사용하고 있습니다. 그러나 드문 경우지만 충분한 데이터 나 올바른 데이터를 얻지 못하고 있습니다. 그래서 다른 경쟁자가 있는지 궁금 해서요, 프로그래밍 언어는 장벽이 아닙니다.최상의 표시 콘텐츠 추출기 사용 가능

답변

1

콘텐츠 추출을 위해 xpath 또는 css 추출기를 직접 사용하는 것이 좋습니다. 두 선택기는 모두 이미 parsel 모듈에 구현되어 있습니다.

웹 크롤링 + 콘텐츠 추출기의 전체 제품군을 보려면 scrapy을 선호합니다.

그리고 html에서 추출 할 부분을 시각적으로 추출하려면 추출하려면 portia을 권장합니다.

희망을 얻었습니다.

+0

답변 해 주셔서 감사합니다. 그리고 네, 이것들은 모두 좋지만, 우리는 크롤러가 아닙니다. 단지 보일러 파이프 또는 beautifulsoup 같은 페이지를 볼 수있는 콘텐츠 추출이 필요합니다 .. – najeeb

관련 문제