현재 파이썬을 기반으로하는 웹 크롤링 프레임 워크 인 scrapy으로 작업하고 있습니다. 데이터는 XPATH을 사용하여 html에서 추출됩니다. (나는 Python을 처음 사용한다.) 데이터 치료를 감싸기 위해 아이템을 사용한다. ID가 print item['id']
처럼 인쇄 할 때 I 출력파이썬에서 문자열로 작업하면 이상한 따옴표가 생깁니다
[u'12346']
내 문제는이 출력이 동일한 형태로 항상되지 않는 것입니다 다음 얻을
item = MyItem()
item['id'] = obj.select('div[@class="id"]').extract()
. 가끔
"[u""someText""]"
이 내용은 텍스트 발생과 같은 출력을 얻을 수 있지만, 실제로는 단지 ID처럼 corretly 처리됩니다 다른 텍스트에 비해 텍스트 speciall 아무것도 없다.
인용 부호가 무슨 뜻인지 아는 사람이 있습니까? someText는 다른 모든 텍스트 데이터처럼 크롤링되었습니다. from
<a>someText</a>
아이디어가 있으십니까?
편집 :
내 거미는 블로그의 모든 페이지를 크롤링합니다. 여기에 내가 항상 같은 블로그 게시물이 인용 부호가 나타났습니다
item['title'] = site.select('div[@class="header"]/h2/a/@title').extract()
로 추출 정확한 출력
[u'41039'];[u'title]
[u'40942'];"[u""title""]"]
...
입니다. 그래서 그들은 무작위로 나타납니다. 그러나이 텍스트에는 특별한 것이 없습니다. 예 : 이 제목은 그래서 내 첫번째 생각이 때문에 일부 특수 문자입니다 있지만이이 arent이었다 인용 부호
<a title="Xtra Pac Telekom web'n'walk Stick Basic für 9,95" href="someURL">
Xtra Pac Telekom web'n'walk Stick Basic für 9,95</a>
을 생산하고 있습니다.
이 항목은 csv에 기록 될 때만 나타납니다. cmd로 인쇄 할 때 따옴표가 없습니다.
아이디어가 있으십니까?
로 예로 표시되는이 작업을 수행 항상 문자열에 대해 발생합니까? 게시 할 수있는 특정 테스트 케이스로 분류 할 수 있습니까? – idbrii
정확한 출력물을 복사하여 붙여 넣었습니까? 당신은 몇몇 물건의 reprs와 다른 사람의 보통 str 버전을 인쇄하고 있습니까? –