CSV 파일에서 여러 URL을 반복합니다. URL이 다음 구조를 가지고 : 등파이썬에서 URL에서 조각 추출하기
http://www.parool.nl/parool/nl/4024/AMSTERDAM-CENTRUM/article/detail/3751723/2014/09/21
http://www.parool.nl/parool/nl/5/POLITIEK/article/detail/3751624/2014/09/20/VVD-wil- boete-van-250-euro-voor-het-naroepen-van-vrouwen.dhtml
,
내가 (이 경우, 4 슬래시, "암스테르담-Centrum에서"와 "POLITIEK"후) 문서의 범주를 얻을 필요가, 그리고 그들을 목록에 추가하십시오.
나는 urllib2가 함께 일하고 있어요 :
reader=CsvUnicodeReader(open("my.csv","r"))
for row in reader:
url = row[0]
req=urllib2.Request(url)
URL을 구문 분석하는 방법이 있나요?
를 사용할 수있다 ['urlparse'] (https://docs.python.org/2/library/urlparse.html) 모듈 (파이썬 3.x 용'urllib.parse'). 그러나 경로의 특정 부분에 관심이있는 것처럼 보이므로 정규 표현식을 사용해야 할 수도 있습니다. –