2
"UTF-8로 HTTP GET HTML 페이지의 콘텐츠 및 레코딩"유니버설 나는 기본적으로 세 단계로 구성된 매우 일반적인 문제를 해결하기 위해 노력 해왔다 얼마 동안 절차
- 가 지정된 URL 및 저장소와 HTML 페이지를 가져 문자열
- 내가 가진 실제 사용에서 추가 처리
에 대한 UTF-8로 컨텐츠를 코딩하거나 HTML 메타 정보 또는 HTTP 헤더의 컨텐츠 인코딩을 감지의 내용 첫 번째 단계는 쿠키 - 항아리, 구성 가능한 시간 제한 및 GET 시도 횟수, 시간 프레임 제한 당 구성 가능한 요청 수 등과 같은 "사용자 에이전트"인스턴스와 같은 기능으로 약간 확장 된 첫 번째 단계입니다.
rest-client
wrapper 하지만 몇 가지 문제가 발생합니다 :
- class-global
RestClient.proxy
예와 충돌합니다.couchrest
(rest-client
자체 사용) - 동결 : 경우에 따라 시간 초과로 인해 프로세스가 중단 될 수 있습니다.
rest-client
제대로 "http://www.ofertacarioca.com.br/index.aspx?cidade=4,Belo%20Horizonte"가져 오기 실패 : 내 친구의 AFAIK 더Location
은 URI 구문 분석 리디렉션rest-client
- 과 같은 문제로 실행 무효 URI '/indexnew.aspx?cidade=4,Belo Horizonte'에 대한 불만은
Location
헤더에서 302 결과이지만curb
은이를 대상 페이지로 완벽하게 처리합니다. 나는 어떤 페이지에 대한 html 페이지 메타 정보와 HTTP 헤더 (이 순서대로)로부터 인코딩을 여전히 감지하려고 시도했다.
나는 그러한 요구 나 흥미로운 보편적 인 해결책 힌트가있는 경우 그곳에서 멋진 보석을 알고 싶다. curburger
아마도 누군가가 유용 발견 : 아무도 대답하지 않았다으로