2013-04-22 3 views
1

웹 사이트에서 데이터를 캡처하여 DB에 저장하는 스크립트를 작성 중입니다. 일부 데이터는 병합되며이를 분할해야합니다. 파이썬에서 텍스트 분할하기

Endokrynologia (bez st.) 
Położnictwo i ginekologia (II st.) 

그래서 내가 파이썬에서 몇 가지 코드를 썼다 :

#!/usr/bin/env python 
# -*- encoding: utf-8 

import MySQLdb as mdb 
from lxml import html, etree 
import urllib 
import sys 
import re 

Nr = 17268 
Link = "http://rpwdl.csioz.gov.pl/rpz/druk/wyswietlKsiegaServletPub?idKsiega=" 

sock = urllib.urlopen(Link+str(Nr)) 
htmlSource = sock.read()        
sock.close() 
root = etree.HTML(htmlSource) 
result = etree.tostring(root, pretty_print=True, method="html") 
Spec = etree.XPath("string(//html/body/div/table[2]/tr[18]/td[2]/text())") 
Specjalizacja = Spec(root) 
if re.search(r'(,)\b', Specjalizacja): 
    text = Specjalizacja.split() 
    print text[0] 
    print text[1] 

와 내가 얻을 : 나는 그래서 내가 얻을 필요가이

Endokrynologia (bez st.),Położnictwo i ginekologia (II st.) 

같은 STH이

Endokrynologia 
(bez 

내가 뭘 잘못하고있어?

+1

그냥 왜 BIF'split (',')'이 아니겠습니까? – LarsVegas

답변

1

당신은이 문제를 해결하는 것입니다 여부를 몰라 ​​

text = Specjalizacja.split(',') 

text = Specjalizacja.split() 

를 교체하려고합니다.

+0

왜 내가 쓰지 않았는지 모르겠다. .split (',') – user2110927

관련 문제