사람들의 이름이 길어야합니다 ("Robert", "Jeniffer", "Andrew"등)생년월일 목록
얼마나 걸리나요? 100은 괜찮을거야.하지만 수천 명이 더 좋을거야.
원시 코드를 HTML 코드로 가져올 수 있도록 HTML 웹 페이지 또는 기타 소스가 아닌 원시 코드를 원합니다.
사람들의 이름이 길어야합니다 ("Robert", "Jeniffer", "Andrew"등)생년월일 목록
얼마나 걸리나요? 100은 괜찮을거야.하지만 수천 명이 더 좋을거야.
원시 코드를 HTML 코드로 가져올 수 있도록 HTML 웹 페이지 또는 기타 소스가 아닌 원시 코드를 원합니다.
http://deron.meranda.us/data/census-dist-male-first.txt (1,219 개 항목)
남성과 여성의 이름은 결합 : http://deron.meranda.us/data/census-derived-all-first.txt
멋지게 포맷하려면
$ curl http://deron.meranda.us/data/census-dist-female-first.txt | \
awk '{print $1}'
정말 고마워요! –
여러 개의 이름 목록을 포함하여 word lists on this page이 많이 있습니다.
미국 센서스 사무국 1990 센서스 three lists 생성했다 :
위의 링크를 인용
(이들은 deron.meranda.us로 연결 다른 답변에서와 같은 카운트가) : (
세 각 파일을 dist.all.last), (dist. male.first) 및 (dist female.first)은 네 개의 데이터 항목을 포함합니다. 네 가지 항목은 다음과 같습니다
는에서 퍼센트 순위에서 %의 누적 주파수에서 "이름"주파수 파일 (dist.all.last) 하나 개의 항목은 다음과 같이 나타납니다 : 우리의 검색 영역 샘플에서
MOORE 0.312 5.312 9
, MOORE는 빈도 측면에서 9 위입니다. 샘플 채우기의 5.312 %는 MOORE에서 처리되며 8 개의 이름은 MOUR보다 더 자주 발생합니다. . 성 (MOORE)은 인구 샘플의 0.312 퍼센트가 소유하고 있습니다.
<namestyle> <first/last indicator> <name>
Namestyle 코드 :
주위 인터넷 검색
는,이 데이터는 상기 format에서 5163 개 항목 (link 1, link 2)의 단일리스트로 정제 한 것
첫 번째/마지막 표시 여성으로 사용 :
예 이름 :
,672,
UPDATE 1 : 약간 원래의 게시물에서 주제 오프 하지만,이 찾는 다른 사람에게 유용 할 수 있습니다. 사람의 이름뿐만 아니라 많은 명사와 문구의 성별과 같은 더 복잡한 것을 찾고 있다면 Shane Bergsma와 Dekang Lin이 만든 코퍼스를 볼 수 있습니다. The data is available as a single gzip file부터 the CoNLL shared task까지.
업데이트 2 : www.census.gov는 웹 사이트를 재구성 했으므로 링크를 업데이트하여 파일의 새로운 위치를 반영했습니다.
UPDATE 3 : www.census.gov는 151,671 명 (direct link to zip)의 전체를 포함하는, 100 회 이상 발생하는 성씨 survey from 2000있다.
깨진 링크가 있습니까? 거기에 2012 년 새 목록이 있습니까? – chovy
얼마 전부터 업데이트에서 언급되었지만 링크가 수정되었습니다. –
우수 자원, 정리하고 마지막 이름을 추출하는 작업 ... –
의 지리적 갖다 데이터 세트의 일부가 이름을 가진 "first_names"테이블 , 어떤 짧은 형식 또는 대체 철자 (예를 들어, 안젤라/앤지 다니엘 - 단 - 대니)을 포함로 Vettrasoft Z 디렉토리, 성 (M/F/B /?; B는 둘 다이고?는 알 수 없음을 의미). 이 테이블에는 12,779 개의 항목이 있으며 파일 형식은 .unl 형식 (분리 된 필드)입니다. 이름과 함께 데이터 세트에는 공항 (8,200 항목), 지역 번호, 국가, 우편 번호 (우편 번호), 주, 시간대 등이 포함됩니다. 데이터는이 데이터에 액세스하는 서브 루틴이있는 o-o 라이브러리와 함께 통합 패키지로 제공됩니다. 첫 번째 이름의 경우에는 ++ 코드과 같이 C를 쓸 수 있습니다 : 데이터베이스에 대니얼 분을 절약 할 수
main()
{
person_o p = "Daniel Boone";
p.store_add();
}
(현재 구현 : MySQL과 SQL 서버). person 객체는 first_names DB 테이블을 사용하여 "Daniel"과 연결된 섹스를 자동으로 찾아 "M"으로 기록합니다 (이름 분석, "Daniel"을 first_name 열에 저장하고 "Boone"은 성란). Z 디렉토리는 기업, 직원, 전자 메일 주소, 전화 번호 등과 같은 다른 사람 - 사람 도메인 개체를 저장하고 검색하는 것과 비슷한 방식으로 작동합니다.
이 여기 ... 너무 늦게 원래 포스터 prolly하지만, 조사자에 대한 어쩌면 유용한 : http://www.ssa.gov/OACT/babynames/limits.html
아래 이름으로 탄생 해 모든 이름을 나열 다운로드 텍스트 파일입니다 적어도 5 명의 어린이가 주어 졌으므로 많은 양의 데이터가 있습니다.
기능을 사용하면 출력이 될 것입니다 영숫자 문자열
Dim input As String = "SMITH 1.006 1.006 1"
Dim output As String = New String((From c As Char In input Select c Where Char.IsLetter(c)).ToArray())
MsgBox(output)
에서 알파벳을 추출하는 데 도움이 될 것입니다 : SMITH
에 감사 : https://stackoverflow.com/users/1842065/bj%C3%B8rn-roger-kringsj%C3%A5
체크 아웃 내 이름 데이터 세트 내가 NLP의 연구를 위해 만든합니다. 모든 이름은 공개 출처에서 추출되었습니다. http://mbejda.github.io 이들은 모두 CSV 형식입니다.
(면책 조항 : 내가 만들었습니다.)
이것은 매우 유용했습니다. – AHungerArtist
와우, 매우 인상적인 직업 목록은 다음 프로젝트에서 매우 유용 할 것입니다 : https://gist.github.com/mbejda/f08bd3348afad3f06ac1 – Dorian
Incredible! 고맙습니다 – bashis
StackOverflow에서 가장 유용한 몇 가지 질문이 SO moderation 프로토콜에 깔끔하게 맞지 않기 때문에 닫힌 방법에 대한 완벽한 예입니다. 질문과 시간 절약에 대한 답변 덕분에! – rinogo