웹 페이지의 텍스트를 긁어내어 텍스트의 문장/단락을 구성하는 각 단어로 구성된 단일 문자열로 출력하려고합니다. 그러나 나는 개별 문장/단락을 연결하는 것처럼 보이지 않는다. 공백이나 줄 바꿈이 원인 일 수도 있지만 같은 문제에서 그 결과를 제거하려고 시도했을 수도 있습니다.파이썬으로 단일 문자열로 웹 스크랩
누군가 내 코드를보고 내가 뭘 잘못하고 있다고 설명 할 수 있습니까? (설명은 매우 도움이된다 그래서 나는 완전히 보정을 이해할 수 있습니다.) 여기
내 코드입니다 : 이import requests, re, json
from bs4 import BeautifulSoup
urls = ['http://t24.com.tr/haber/suriyelilere-vatandasliga-neden-karsi-cikiliyor,348652', 'http://t24.com.tr/haber/oteki-suriyeliler-turkiye-vatandasi-olursak-askere-gideriz-akpye-oy-verir-miyim-bilmiyorum,349206', 'http://t24.com.tr/haber/konyada-turklerle-suriyeliler-arasinda-kopege-niye-tekme-attin-kavgasi-3-olu-2-yarali,349208']
for url in urls:
html = requests.get(url).text
soup = BeautifulSoup(html, "html.parser")
paragraphs = soup.findAll('p', {"class" : "p1"})
for p in paragraphs:
text = p.text.replace(',', '').replace('"', '').replace('.', '').replace("'", "").replace('?', '').replace("\n", "").replace('\r', '')
print(text)
내 출력은 다음과 같습니다
Selin Girit
Kendi ülkesinde savaştan kaçacak sınavsız okula girip askerlik yapmayacak 10 yıl sonra benden iyi yaşayacak #ÜlkemdeSuriyeliİstemiyorum
Cumhurbaşkanı Recep Tayyip Erdoğanın Türkiyede yaşayan Suriyeli mültecilere
내가 원하는 것은 이 :