2009-11-26 2 views
120

사람들의 이름이 길어야합니다 ("Robert", "Jeniffer", "Andrew"등)생년월일 목록

얼마나 걸리나요? 100은 괜찮을거야.하지만 수천 명이 더 좋을거야.

원시 코드를 HTML 코드로 가져올 수 있도록 HTML 웹 페이지 또는 기타 소스가 아닌 원시 코드를 원합니다.

+1

StackOverflow에서 가장 유용한 몇 가지 질문이 SO moderation 프로토콜에 깔끔하게 맞지 않기 때문에 닫힌 방법에 대한 완벽한 예입니다. 질문과 시간 절약에 대한 답변 덕분에! – rinogo

답변

104

미국 센서스 사무국 1990 센서스 three lists 생성했다 :

위의 링크를 인용

(이들은 deron.meranda.us로 연결 다른 답변에서와 같은 카운트가) : (

세 각 파일을 dist.all.last), (dist. male.first) 및 (dist female.first)은 네 개의 데이터 항목을 포함합니다. 네 가지 항목은 다음과 같습니다

에서 퍼센트 순위에서 %의 누적 주파수에서 "이름"주파수 파일 (dist.all.last) 하나 개의 항목은 다음과 같이 나타납니다 : 우리의 검색 영역 샘플에서

MOORE  0.312  5.312  9 

, MOORE는 빈도 측면에서 9 위입니다. 샘플 채우기의 5.312 %는 MOORE에서 처리되며 8 개의 이름은 MOUR보다 더 자주 발생합니다. . 성 (MOORE)은 인구 샘플의 0.312 퍼센트가 소유하고 있습니다.

<namestyle> <first/last indicator> <name> 

Namestyle 코드 :

주위 인터넷 검색

는,이 데이터는 상기 format에서 5163 개 항목 (link 1, link 2)의 단일리스트로 정제 한 것

  • MF : 남성 또는 여성으로 사용
  • MO가 : 남자로 사용에만
  • FO : 만

첫 번째/마지막 표시 여성으로 사용 :

  • LY : 마지막으로 사용하지 않음 : 마지막 이름
  • LN로 사용

예 이름 :

,672,

UPDATE 1 : 약간 원래의 게시물에서 주제 오프 하지만,이 찾는 다른 사람에게 유용 할 수 있습니다. 사람의 이름뿐만 아니라 많은 명사와 문구의 성별과 같은 더 복잡한 것을 찾고 있다면 Shane Bergsma와 Dekang Lin이 만든 코퍼스를 볼 수 있습니다. The data is available as a single gzip file부터 the CoNLL shared task까지.

업데이트 2 : www.census.gov는 웹 사이트를 재구성 했으므로 링크를 업데이트하여 파일의 새로운 위치를 반영했습니다.

UPDATE 3 : www.census.gov는 151,671 명 (direct link to zip)의 전체를 포함하는, 100 회 이상 발생하는 성씨 survey from 2000있다.

+2

깨진 링크가 있습니까? 거기에 2012 년 새 목록이 있습니까? – chovy

+1

얼마 전부터 업데이트에서 언급되었지만 링크가 수정되었습니다. –

+0

우수 자원, 정리하고 마지막 이름을 추출하는 작업 ... –

0

의 지리적 갖다 데이터 세트의 일부가 이름을 가진 "first_names"테이블 , 어떤 짧은 형식 또는 대체 철자 (예를 들어, 안젤라/앤지 다니엘 - 단 - 대니)을 포함로 Vettrasoft Z 디렉토리, 성 (M/F/B /?; B는 둘 다이고?는 알 수 없음을 의미). 이 테이블에는 12,779 개의 항목이 있으며 파일 형식은 .unl 형식 (분리 된 필드)입니다. 이름과 함께 데이터 세트에는 공항 (8,200 항목), 지역 번호, 국가, 우편 번호 (우편 번호), 주, 시간대 등이 포함됩니다. 데이터는이 데이터에 액세스하는 서브 루틴이있는 o-o 라이브러리와 함께 통합 패키지로 제공됩니다. 첫 번째 이름의 경우에는 ++ 코드과 같이 C를 쓸 수 있습니다 : 데이터베이스에 대니얼 분을 절약 할 수

main() 
{ 
    person_o p = "Daniel Boone"; 
    p.store_add(); 
} 

(현재 구현 : MySQL과 SQL 서버). person 객체는 first_names DB 테이블을 사용하여 "Daniel"과 연결된 섹스를 자동으로 찾아 "M"으로 기록합니다 (이름 분석, "Daniel"을 first_name 열에 저장하고 "Boone"은 성란). Z 디렉토리는 기업, 직원, 전자 메일 주소, 전화 번호 등과 같은 다른 사람 - 사람 도메인 개체를 저장하고 검색하는 것과 비슷한 방식으로 작동합니다.

16

이 여기 ... 너무 늦게 원래 포스터 prolly하지만, 조사자에 대한 어쩌면 유용한 : http://www.ssa.gov/OACT/babynames/limits.html

아래 이름으로 탄생 해 모든 이름을 나열 다운로드 텍스트 파일입니다 적어도 5 명의 어린이가 주어 졌으므로 많은 양의 데이터가 있습니다.

1

기능을 사용하면 출력이 될 것입니다 영숫자 문자열

Dim input As String = "SMITH 1.006 1.006 1" 
     Dim output As String = New String((From c As Char In input Select c Where   Char.IsLetter(c)).ToArray()) 
     MsgBox(output) 

에서 알파벳을 추출하는 데 도움이 될 것입니다 : SMITH

에 감사 : https://stackoverflow.com/users/1842065/bj%C3%B8rn-roger-kringsj%C3%A5

17

체크 아웃 내 이름 데이터 세트 내가 NLP의 연구를 위해 만든합니다. 모든 이름은 공개 출처에서 추출되었습니다. http://mbejda.github.io 이들은 모두 CSV 형식입니다.

(면책 조항 : 내가 만들었습니다.)

+0

이것은 매우 유용했습니다. – AHungerArtist

+0

와우, 매우 인상적인 직업 목록은 다음 프로젝트에서 매우 유용 할 것입니다 : https://gist.github.com/mbejda/f08bd3348afad3f06ac1 – Dorian

+1

Incredible! 고맙습니다 – bashis