2012-01-25 2 views
1

데이터베이스를 채우기 위해 웹의 큰 테이블에서 일부 데이터를 긁어 내고 있습니다. 문자 중 일부는 화면에 잘 나타나지만 긁으면 다음과 같이 처리됩니다. !¬†√Öland Islands스크랩 - 문자 인코딩

원시 데이터를 가져 오기 위해 file_get_contents를 사용하고 있습니다. 내가 긁은 후에도 괜찮아 보인다. (즉, 원시 결과를 var_dump하면된다.) Åland Islands

그런 다음 데이터를 배열로 변환하여 텍스트 파일이나 sql 파일에 쓴다. 문자 서식을 유지하려면 어떻게해야합니까?

+1

나는 [모든 프로그래머가 절대적으로 인코딩 및 문자 세트에 대해 알기 위해 무엇을해야하는지] (http://kunststube.net/encoding/)에서 시작해야한다고 생각합니다. 귀하의 질문은 나중에 스스로 답변 할 수 있습니다. – deceze

+0

감사합니다. 나는 그것을 조사 할 것이다. 정말 감사합니다. –

+0

Deceze - 문자 인코딩에 대한 완전한 이해를 얻었습니다. 고맙습니다. 기부금을 받으시겠습니까? –

답변

1

"Å"을 "! † † √ Ö"(5 문자)로 바꾸면 문자 코드 변환이 2 회 이상 잘못되었을 가능성이 가장 큽니다. 하나의 잘못된 변환은 문자를 다른 문자 또는 일부 쌍 또는 문자 셋으로 변환하는 경향이 있지만 거의 5 문자는 아닙니다.

덤프 할 때 스크래핑 후에 정상적으로 보이면 어떤 문자 인코딩이 사용 중인지 확인하고 파일에 데이터를 쓰는 방법을 확인해야합니다. 데이터가 UTF-8로 인코딩 된 경우 (전 세계의 지리적 이름을 컴파일해야 함) 용의자가 작성한대로 쓰기 작업은 UTF-8 데이터에서 작동하는 작업이어야하며 작성된 결과를 검사 할 때 검사 소프트웨어는 파일에 UTF-8로 인코딩 된 데이터를 읽어야합니다.