2011-08-23 3 views
2

"UTF-8로 HTTP GET HTML 페이지의 콘텐츠 및 레코딩"유니버설 나는 기본적으로 세 단계로 구성된 매우 일반적인 문제를 해결하기 위해 노력 해왔다 얼마 동안 절차

  1. 가 지정된 URL 및 저장소와 HTML 페이지를 가져 문자열
  2. 내가 가진 실제 사용에서 추가 처리

에 대한 UTF-8로 컨텐츠를 코딩하거나 HTML 메타 정보 또는 HTTP 헤더의 컨텐츠 인코딩을 감지의 내용 첫 번째 단계는 쿠키 - 항아리, 구성 가능한 시간 제한 및 GET 시도 횟수, 시간 프레임 제한 당 구성 가능한 요청 수 등과 같은 "사용자 에이전트"인스턴스와 같은 기능으로 약간 확장 된 첫 번째 단계입니다.

rest-client wrapper 하지만 몇 가지 문제가 발생합니다 :

  • class-global RestClient.proxy 예와 충돌합니다. couchrest (rest-client 자체 사용)
  • 동결 : 경우에 따라 시간 초과로 인해 프로세스가 중단 될 수 있습니다. rest-client 제대로 "http://www.ofertacarioca.com.br/index.aspx?cidade=4,Belo%20Horizonte"가져 오기 실패 : 내 친구의 AFAIK 더 Location은 URI 구문 분석 리디렉션 rest-client
  • 과 같은 문제로 실행 무효 URI '/indexnew.aspx?cidade=4,Belo Horizonte'에 대한 불만은 Location 헤더에서 302 결과이지만 curb은이를 대상 페이지로 완벽하게 처리합니다. 나는 어떤 페이지에 대한 html 페이지 메타 정보와 HTTP 헤더 (이 순서대로)로부터 인코딩을 여전히 감지하려고 시도했다.

나는 그러한 요구 나 흥미로운 보편적 인 해결책 힌트가있는 경우 그곳에서 멋진 보석을 알고 싶다. curburger

아마도 누군가가 유용 발견 : 아무도 대답하지 않았다으로

답변

0

, 나는 curb 기반 솔루션을 구현하는 데 필요한.

관련 문제