성 (姓)에서 국적을 예측하는 데 사용할 수있는 접근 방법은 무엇입니까?성에서 사람의 국적을 추측하는 방법은 무엇입니까?
나는 저자의 엄청난 목록의 성서와 성을 갖고있다. 어떤 글쓰기 스타일 패턴이 다른 그룹과 다른지 조사하기 위해 라틴어 사용자가 작성한 텍스트와 영어가 모국어 인 사용자가 작성한 텍스트를 확인하고 싶습니다.
나는 구글에서 성 (姓)의 데이터베이스를 찾아 보았지만 무료로 액세스 할 수있는 것은 없습니다. 또 다른 방법은 ". * ez"와 같은 일부 정규식을 사용하여 'rodriguez'와 같은 일부 히스패닉 성을 식별하는 것입니다.
의견이 있으십니까? 예측을 한 후에 모든 협회를 수작업으로 개정 할 것이므로 정확한 정확성은 필요하지 않지만 도움이나 아이디어는 환영받을 것입니다.
TSA의 누군가가 알 수도 있습니다. – awm
와우. 그것은 꽤 작업처럼 보인다. 나는 성의 이름이 그 나라 출신 임에도 불구하고 성 (姓)이 세대에 따라 분명하게 변하고 사람들은 항상 특정 국적을 고려하지 않기 때문에 어떤 큰 정확도를 달성 할 수 있을지 의심 스럽다. 이 정확성에 대해 어떤 종류의 정확성이 필요합니까? 다른 나라의 전화 번호부/센서스와 같은 데이터에 액세스 할 수 있다면 일반적인성에 공통된 이름과 유사점을 찾을 수 있습니다. 예를 들어 1 문자의 차이는 기본적으로 같은 이름입니다. – Thor84no
당신은 스페인어 성을 가지고 있기 때문에 영어가 모국어가 아니거나 다른 방향으로 작용하지 않습니다. – bitmask