1
나는 보통 페이지에서 데이터를 추출하기 위해 파이썬이있는 아름다운 스프를 사용합니다. 나는 그들이 입력을 매우 비조직적 인 방법으로 집어 넣은 이상한 상황을 겪고 있습니다.매우 구조화되지 않은 웹 페이지에서 데이터 추출하기
이 페이지 소스의 검사에 http://dsalsrv02.uchicago.edu/cgi-bin/app/kadirvelu_query.py?page=2
이다, 나는 그것의이 방법
1) <a href="/cgi-bin/app/kadirvelu_query.py?qs=அகங்காரவிர்த்தி&searchhws=yes"><hw>அகங்காரவிர்த்தி</hw></a> akangkāravirtti (<a href="/cgi-bin/app/kadirvelu_query.py?page=2">p. 2</a>) நானென்னும்வடிவுஞானம்.
<br>
2) <a href="/cgi-bin/app/kadirvelu_query.py?qs=அகங்காரான்ம ஞானம்&searchhws=yes"><hw>அகங்காரான்ம ஞானம்</hw></a> akangkārāṉm ஞானம் (<a href="/cgi-bin/app/kadirvelu_query.py?page=2">p. 2</a>) அகங்காரமேஆன்மாவெனக்கொள்ளும் அறிவு.
<br>
따라서 어떤 쿼리가
내 필요한 출력을 가져올 수없는
을 அகங்காரவிர்த்தி 저장된 것을 발견, 수리남,이것은 단지 단어, 영문 역어, 의미입니다. 은 현재 내가 깨진 형 출력for a in soup.findAll('a'):
print >> f , a.text.encode('utf8')
고맙습니다. 데이터를 처리하는 데 사용할 수있는 출력을 한 줄로 얻을 수 있도록 작은 해킹을 수행했습니다. '문자열의 A, B, C의 경우 : 인쇄 >> F (. U "{}"형식 (a) 함수 .encode ('UTF8 ')), \t 인쇄 >> F (U "{ ("utf8 '))", "format", "format", "format (b) .encode ('utf8 ')), print >> f –