2017-10-30 1 views
1

Im 공급 업체 링크 디렉토리를 통해 스크래핑합니다. 필자는 find_all 메서드를 사용하여 원하는 모든 데이터를 격리 된 수프 &을 만들었습니다. 그러나 내가 필요로하는 문자열은 수프 안에 더 중첩되어 있습니다. 나는 find_all이리스트를 리턴한다는 것을 이해하지만 필자가 필요로하는 것을 얻기 위해리스트를 추가적으로 추출 할 필요가있다. 도움을 주셔서 감사합니다. 임은 방을 가로 질러 노트북을 집어 넣기 때문입니다. 아래는 현재 코드입니다.BeautifulSoup은 find_all 후 href를 얻습니다.

파이썬을 알면서도 아름다운 스프만을 기본으로 이해하면서 코딩 세계에 새로운 소식을 전합니다.

URL = get(https://www......) # importing the url I want to work over 
soup = BeautifulSoup(URL.text, 'html.parser') # making the soup 
IsoUrl = soup.find_all('a',class='xmd-listing-company-name') # Isolates the tags of the links I need. 

이것은 내가 더러워지는 곳입니다. 위의 격리에서 나는 다음과 같은 목록으로 구성됩니다. 다음은 목록의 단 하나 항목입니다.

<a class="xmd-listing-company-name"href="/rated.company.html" itemprop='url><span itemprop='name'>Company</span></a>' 

위의 문자열 중 10 개 이상이 목록에 있습니다. 나는 각 문자열 &에서 '/rated.company.html'을 훑어보고 반복 할 목록에 추가하려고합니다.

모든 안내는 대단히 감사하겠습니다. 난 아무것도 명확히해야 할 경우 단순히 find_all의 결과에 루프가 href를 아래와 같이 추출 할 수 있습니다 나를

+0

그냥 HREF를 추가 = 작동해야 진정한 IsoUrl = soup.find_all ('a', class = 'xmd-listing-company-name', href = True) –

답변

0

을 알려 주시기 바랍니다 :

results = [iso['href'] for iso in IsoUrl] 

# >>> ["/rated.company.html", ...] 
+0

정말 고마워요. 비슷한 것을 (다른 포럼을 기반으로) 무용하려고 시도했다. 당신의 접근 방식은 내가 필요로하는 것과 똑같이 작동했습니다. 다시 한 번 감사합니다 – ScoobertTheDoo551

+0

당신을 환영합니다! 당신은 솔루션에서 그리 멀지 않았습니다.이 [doc] (https://www.crummy.com/software/BeautifulSoup/bs4/doc/#attributes)에서 다른 방법에 대한 아이디어를 확인하십시오. – PRMoureu

관련 문제