2012-06-23 2 views
4

메일 클라이언트를 개발하려면 가능한 많은 메일을 포함하는 매우 큰 mbox 테스트 파일이 필요합니다. 바람직하게는> 100.000 메일 (> 10GB).테스트 목적을위한 큰 샘플 mbox 파일

성능을 테스트하고 메일 필터 및 검색을 수행하기 때문에 현실적인 메일 데이터 여야합니다.

어떤 힌트를 주셔서 감사합니다.

+2

없이 스팸 필터링 및 주소'info @ the-domain.com'. 이 주소를 몇 개의 포르노 사이트에 등록하고 기다리십시오 :-) –

+0

흥미로운 이메일 자원에 대해서는 [이 OpenData 페이지] (http://opendata.stackexchange.com/q/4517/1511)를 참조하십시오. – philshem

답변

0

아마도 자신의 사서함을 가져 와서 여러 번 복제 할 수 있습니다. 예 : IMAP을 사용하거나 파일 시스템을 사용하여 메일 계정을 설정하고 모든 이메일을 여러 번 복사하지만 어떤 데이터 형식을 사용하고 있는지에 따라 다릅니다.

+1

나는 내 자신을 취할 수 없습니다. 테스트는 메일을 읽지 않아야하는 다른 사용자가 수행하기 때문에 메일 함 – pintpint

3

검색 엔진을 사용하여 .mbox 텍스트 파일을 수집 할 수 있습니다. 예를 들어, filetype:mbox pipermail에 대한 google 검색은 많은 .mbox 데이터를 생성합니다. 대신 pipermail의 from은 검색 문자열로 작동합니다.

개인은 .mbox 파일은 연결될 수 있습니다

cat mboxfile1 > mboxfile 
echo >> mboxfile 
cat mboxfile2 >> mboxfile 

추신을 그것은 비 윤리적 인 데이터가 아닙니다. 그것은 당신이 그것을하는 것과 같습니다. 윤리적으로 행동하십시오!

3

또 다른 몇 가지 옵션 :

엔론 이메일 이메일210 GB의 코퍼스. 여러 전자 메일 형식이지만 읽을 수 있어야합니다.

FERC의 Western Energy Markets 조사의 일환으로 공개 된 Enron 전자 메일 데이터는 EDRM에 의해 업계 표준 형식으로 변환되었습니다. 이 데이터 세트는 1,227,255 개의 이메일과 493,384 개의 첨부 파일로 구성되어 있으며 151 명의 관리인을 대상으로합니다. 전자 메일은 Microsoft PST, IETF MIME 및 EDRM XML 형식으로 제공됩니다.

아파치 소프트웨어 재단 홍보 메일 아카이브 (2백기가바이트)

모음 이 컬렉션에서 공개 된 모든 이메일 아카이브를 포함 2011

년 7 월 11 모든 공개 아파치 소프트웨어 재단의 메일 아카이브의 ASF의 오픈 메일 서버를 설정 80 + projects

Amazon link