웹 페이지에서 HTML을 가져 오기 위해 std.net.curl
모듈을 사용하고 있습니다. 하지만 인코딩 문제는 해결할 방법이 없습니다. 나는 (? 내가 바이너리를 얻고 어떻게?)받을'utf-8'의 인코딩 순서가 잘못되었습니다.
�S��7�砱�y�����g�d��C���|��W��O�s��~����*6��@�4�&�A�J����r▒4=�FT�e�� [...]
는 dlang.org
를 들어 그것을 잘 작동, google.com
를 들어
[email protected]/usr/include/d/dmd/phobos/std/net/curl.d(800): Invalid encoding sequence for enconding 'utf-8'
----------------
./foo(char[] std.net.curl._decodeContent!(char)._decodeContent(ubyte[], immutable(char)[])+0xf6) [0x812e6ba]
./foo(char[] std.net.curl._basicHTTP!(char)._basicHTTP(const(char)[], const(void)[], std.net.curl.HTTP)+0x28e) [0x80f89f6]
./foo(char[] std.net.curl.get!(std.net.curl.HTTP, char).get(const(char)[], std.net.curl.HTTP)+0x8f) [0x80f8737]
./foo(immutable(char)[] teste.get_html(immutable(char)[])+0x112) [0x80f0806]
./foo(_Dmain+0x5f) [0x80f06e3]
./foo(extern (C) int rt.dmain2.main(int, char**).void runMain()+0x14) [0x8138340]
./foo(extern (C) int rt.dmain2.main(int, char**).void tryExec(scope void delegate())+0x18) [0x8137e50]
./foo(extern (C) int rt.dmain2.main(int, char**).void runAll()+0x32) [0x8138382]
./foo(extern (C) int rt.dmain2.main(int, char**).void tryExec(scope void delegate())+0x18) [0x8137e50]
./foo(main+0x94) [0x8137e04]
/lib/libc.so.6(__libc_start_main+0xf3) [0xb7593003]
: 일부 페이지는 facebook.com
처럼 나는 다음과 같은 오류 메시지 (실행 시간)을 얻는다.
질문 : 읽는 올바른 방법은 무엇입니까? 페이지 인코딩과 독립적입니다. 사전에
string get_html(string page) {
auto client = HTTP();
client.clearRequestHeaders();
client.addRequestHeader("DNA", "1");
client.addRequestHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");
client.addRequestHeader("Accept-Encoding", "gzip, deflate");
client.addRequestHeader("User-Agent", "Mozilla/5.0 (X11; Linux i686; rv:7.0.1) Gecko/20100101 Firefox/7.0.1");
client.addRequestHeader("Accept-Charset", "ISO-8859-1,utf-8;q=0.7,*;q=0.7");
return cast(string)get(page, client);
}
감사 :
여기 내 D 코드입니다.
이러한 기능은 무엇입니까? 대신에'get (page)'만 부르면됩니까? – Jack
예, [get] (http://dlang.org/phobos/std_net_curl.html#get), UFCS는 다음과 같습니다 :'url.get()', 꽤 멋지다. – dav1d
하지만 헤더를 보내야합니다. 그래서,'get (page, client)'가 정말로 필요합니다. 'url.get()'에 감사드립니다. :) – Jack