1
웹 사이트에서 데이터를 캡처하여 DB에 저장하는 스크립트를 작성 중입니다. 일부 데이터는 병합되며이를 분할해야합니다. 파이썬에서 텍스트 분할하기
Endokrynologia (bez st.)
Położnictwo i ginekologia (II st.)
그래서 내가 파이썬에서 몇 가지 코드를 썼다 :
#!/usr/bin/env python
# -*- encoding: utf-8
import MySQLdb as mdb
from lxml import html, etree
import urllib
import sys
import re
Nr = 17268
Link = "http://rpwdl.csioz.gov.pl/rpz/druk/wyswietlKsiegaServletPub?idKsiega="
sock = urllib.urlopen(Link+str(Nr))
htmlSource = sock.read()
sock.close()
root = etree.HTML(htmlSource)
result = etree.tostring(root, pretty_print=True, method="html")
Spec = etree.XPath("string(//html/body/div/table[2]/tr[18]/td[2]/text())")
Specjalizacja = Spec(root)
if re.search(r'(,)\b', Specjalizacja):
text = Specjalizacja.split()
print text[0]
print text[1]
와 내가 얻을 : 나는 그래서 내가 얻을 필요가이
Endokrynologia (bez st.),Położnictwo i ginekologia (II st.)
같은 STH이
Endokrynologia
(bez
내가 뭘 잘못하고있어?
그냥 왜 BIF'split (',')'이 아니겠습니까? – LarsVegas