2012-01-06 2 views
0

이것은 내 영역이 아니기 때문에이 스택의 범위에 포함되지 않는 경우 사과드립니다.깨진 데이터 세트에서 통화 정보를 복구하는 방법은 무엇입니까?

공개적으로 공개되기 전에 일부 조작을 통해 익명으로 처리 된 설문 데이터 (download, 9MB)를 정리하고 있습니다 (다른 사람들과 공유하기 위해 개인 오락 및 시각화를 위해).

질문 중 하나는 시간당 지불 요금 및 자유 형식 텍스트 답변에 대한 것입니다. 그 해답의 일부는 심하게 깨진 문자, 아래 이미지와 같이 가장 일반적인 두 가지 사례를 가지고 :

enter image description here

나는 그 답을 폐기하기 싫어,하지만 의미있는 상태로 되 돌리는 방법 딱하다.

  1. 더 나은 데이터 덤프 - 관련 사람들에 대해 물어 보지만 너무 희망적이지는 않습니다.

  2. 어떤 문자가 이런 식으로 끝나는 지 확인하십시오. 인코딩을 다루는 것은 항상 번거롭고 이러한 것들은 전에 본 적이없는 깨진 문자처럼 보이지 않으므로 어디서부터 시작해야하는지, 그리고이를 도와 줄 수있는 도구가 있는지 전혀 알지 못합니다. 그것은 심지어 유효한 문자 또는 통화 기호가 아닐 수도 있습니다.

  3. 유효한 문자로 깨진 문자를 대조하십시오. 두 사람 중 한 사람이 € 인물 일 수도 있고 다른 사람은 영어 사용 국가에 대해 기울어 진 것이라면 £ 일 수 있다고 생각합니다. 그러나 나는 그러한 추측을 다른 대답에 대한 상대적인 성격의 양으로 신뢰할 수있게 뒷받침 할 수있을 것인가? 불행히도 지역 데이터는 제공되지 않았으므로 국가에 대한 답변을 찾을 수 없습니다.

+0

은 부패가 만연 것을, 어떻게 당신도 * 데이터의 *이 올바른지 확신 할 수 있어요 ? 예를 들어, 대부분의 레코드가 삭제되어 한 (원래) 줄의 값이 이제 다음 (원래) 줄의 통화와 연결됩니다. 이것은 "조작"을 올바르게 다시 수행함으로써 가장 잘 해결되는 데이터 포렌식 문제와 같습니다. – whuber

+0

@whuber 예를 들어 '클라이언트에 따라 시간당 ЊЈ20 - ЊЈ30'과 같이 상황이 정상적으로 보이는 답변이 있습니다. 더 나은 데이터 덤프에 대한 내 손을 잡는 것은 대단 할 것입니다.하지만 그렇게 될 때까지는 내가 가지고있는 것에서 내가 할 수있는 것을 구제하려고합니다. – Rarst

+0

유니 코드라고 생각하지 않습니다. Windows에서 Textpad를 사용하는 경우 Textpad는 인코딩이 무엇인지 식별하는 데 매우 뛰어납니다. 나중에 Windows를 부팅 할 때 살펴 보겠습니다. – jbowman

답변

0

이것은 조사 소프트웨어의 수출 버그로 인한 것이고 문자는 유로와 파운드에 해당합니다.

예상대로입니다.

enter image description here

는 CSV 버그에 @Polldaddy 수출을 감안할 때

Pete Davies

+0

음 ...이 데이터 표시에는 이상한 점이 있습니다. 워드 패드 또는 Excel을 사용하면 "유로"가 "ä ‰ å"(대부분의 글꼴에서 사용 가능)로 나타나고 파운드가 올바르게 나타납니다. – whuber

+1

@whuber는 러시아어 로켈로 설정된 내 Windows와 관련이 있습니다. 내 경우에는 깨진 유로 모양의 라틴어로 귀하의 경우 기호에서 (이미지에서와 같이) 그들은 키릴 문자를 찾습니다. – Rarst

관련 문제