큰 덩어리의 텍스트가 있고이 패턴을 따르는 URL 목록을 반환하는 모든 URL을 구문 분석하고 싶습니다. https://www.facebook.com/. * $. 여기 텍스트 블록에서 URL을 가져 오는 중입니까?
내가에서 분석하고자하는 텍스트의 예입니다<abbr title="Monday xxxx" data-utime="xx" class="timestamp">over a year ago</abbr></div></div></div></div></div></li><li class="fbProfileBrowserListItem"><div class="clearfix _5qo4"><a class="_8o _8t lfloat" href="https://www.facebook.com/xxxxx?fref=pb&hc_location=profile_browser" tabindex="-1" aria-hidden="true" data-hovercard="/ajax/hovercard/user.php?id=xxxx&extragetparams=%7B%22hc_location%22%3A%22profile_browser%22%7D"><img class="_s0 _rw img" src="https://fbcdn-profile-xxxxxxxx.net/hprofile-ak-ash2/xxxxxx.jpg" alt=""></a><div class="clearfix _42ef"><div class="_6a rfloat"><div class="_6a _6b" style="height:50px"></div><div class="_6a _6b"><div class="_5t4x"><div class="FriendButton" id="u_2h_1w"><button class="_42ft _4jy0 FriendRequestAdd addButton _4jy3 _517h" type="button">
내가 좀하고 싶습니다 내가 뭘하려 "https://www.facebook.com/xxxxx?fref=pb&hc_location=profile_browser"
from bs4 import BeautifulSoup
html = open('full_page_firefox.html')
def getLinks(html):
soup = BeautifulSoup(html)
anchors = soup.findAll('a')
links = []
for a in anchors:
links.append(a['href'])
return links
print getLinks(html)
분할은 패턴을 유지하지 않기 때문에 작동하지 않는 것처럼 보입니다. 그래서 내가 "https://www.facebook.com/ *. $"와 같은 URL을 사용하여 re.split() 또는 무엇인가로 URL을 얻으면 작동하지 않습니다.
희망 사항이 블로그 게시물은 누군가에게 유용 할 수 있기를 바랍니다. http://samranga.blogspot.com/2015/08/web-scraping-beginner-python.html –