2017-12-06 2 views
0

입력 된 태그에서 src를 추출하고 싶지만 beautifulsoup 결과를 얻으면 src는 무시됩니다. BeautifulSoup을 사용하여 입력 태그에서 src를 추출하는 방법

for i in soup_image.find_all('input'): 
    print(i) 

나는 SRC의 가치를 얻을 싶어요. 그러나 값은 결과에서 무시됩니다. 이것은 원래 태그입니다 (브라우저에서 검사합니다).

<input src="https://www1.wi.to/2017/08/11/9c01e43e1652635563826de457b06e25.jpg" type="image" onclick="window.open('http://www.viidii.info/?action=image&amp;url=&amp;src='+encodeURIComponent(this.src));return false;"> 

그리고 이것은 내가 (나는 수프에 보는) 무엇을 얻을,

<input onclick="window.open('http://www.viidii.info/?action=image&amp;url=&amp;src='+encodeURIComponent(this.src));return false;" src="http://cdn1.snapgram.co/imgs/2016/08/01/marker-small.png" type="image"/> 

내가 그 SRC는 브라우저에서 열 수 있기 때문에 첫 번째 입력에서 SRC를 얻으려면 두 번째 입력의 src와 다릅니다. 사실 두 번째 입력 태그에서이 문자가 사라지는 것을 볼 수 있습니다.

크롤링 한 후 인코딩 되나요? 나는 모른다. 도와주세요. 당신이 입력 태그에서 src 값을 얻기 위해 찾고 있다면

+0

구문 분석 할 html 파일을 제공하고 달성하려는 내용에 대해 자세히 알아보십시오. –

답변

1

soup.find('input')['src'] 

는 당신이 그것을 얻을 도움이 될 것입니다.

+0

하지만 find ('input')를 사용하면이 태그의 내용이 변경됩니다. 내 질문을 참조하십시오. 입력 된 내용 (src)은 웹 페이지에서 조사 할 때와 수프에서 볼 때 서로 다릅니다. –

관련 문제