2011-09-27 4 views
9

성 (姓)에서 국적을 예측하는 데 사용할 수있는 접근 방법은 무엇입니까?성에서 사람의 국적을 추측하는 방법은 무엇입니까?

나는 저자의 엄청난 목록의 성서와 성을 갖고있다. 어떤 글쓰기 스타일 패턴이 다른 그룹과 다른지 조사하기 위해 라틴어 사용자가 작성한 텍스트와 영어가 모국어 인 사용자가 작성한 텍스트를 확인하고 싶습니다.

나는 구글에서 성 (姓)의 데이터베이스를 찾아 보았지만 무료로 액세스 할 수있는 것은 없습니다. 또 다른 방법은 ". * ez"와 같은 일부 정규식을 사용하여 'rodriguez'와 같은 일부 히스패닉 성을 식별하는 것입니다.

의견이 있으십니까? 예측을 한 후에 모든 협회를 수작업으로 개정 할 것이므로 정확한 정확성은 필요하지 않지만 도움이나 아이디어는 환영받을 것입니다.

+4

TSA의 누군가가 알 수도 있습니다. – awm

+1

와우. 그것은 꽤 작업처럼 보인다. 나는 성의 이름이 그 나라 출신 임에도 불구하고 성 (姓)이 세대에 따라 분명하게 변하고 사람들은 항상 특정 국적을 고려하지 않기 때문에 어떤 큰 정확도를 달성 할 수 있을지 의심 스럽다. 이 정확성에 대해 어떤 종류의 정확성이 필요합니까? 다른 나라의 전화 번호부/센서스와 같은 데이터에 액세스 할 수 있다면 일반적인성에 공통된 이름과 유사점을 찾을 수 있습니다. 예를 들어 1 문자의 차이는 기본적으로 같은 이름입니다. – Thor84no

+0

당신은 스페인어 성을 가지고 있기 때문에 영어가 모국어가 아니거나 다른 방향으로 작용하지 않습니다. – bitmask

답변

4

나는 이것을 어느 정도의 신뢰성으로 할 수 있다고 생각하지 않는다. Rodriguez는 스페인 원산지의 이름을 가지고 있을지 모르지만 어디에서 태어나고 자랄 수 있습니다. 그들은 2 세 영국인이 될 수 있었고 스페인어를 처음 접한 적이 전혀 없었습니다. 그래서 원어민 강사 범주로 들어 왔습니다.

+8

이것은 답변이 아니지만 의견입니다. – bitmask

2

의미있는 방법은 없습니다. 히스패닉 이름을 가진 사람들이 영어가 모국어가 아닌 이유는 없습니다.

어쨌든 수정하려면 왜 가지고있는 데이터를 사용하지 않으시겠습니까?

+0

거대한 텍스트 목록에 대해이 작업을 수행해야하므로 기본 값을 설정하고 작업을 쉽게하기 위해 필요합니다. – dalloliogm

3

아마 실제 저자가 아마존을 거미로 만들 수 있고 '저자 정보'세부 정보를 확인할 수 있습니까?

나는 당신이 추측 할 수 있다고 생각하지 않습니다. 예 : 아일랜드의 성 - 아일랜드의 유산으로 추정되는 인구는 약 8,000,000 명이지만이 중 450 만 명이 아일랜드에 살고/아일랜드의 교육을 받았다.

1

텍스트를 프로그래밍 방식으로 비교하려는 경우 수동으로 텍스트를 분류해야합니다. 잘못 추측하면 텍스트 분석을위한 깨진 알고리즘을 만들 수 있습니다. 이것은 인공 신경망과 같은 기계 학습에서 특히 문제가 될 것입니다.

관련 문제