2011-12-14 2 views
0

twitter.com과 같은 데이터 서비스에서 소셜 데이터를 수집하는 경우 데이터 전략은 무엇입니까?좋은 소셜 데이터 수집 전략은 무엇입니까?

내가 생각할 수있는 것은 다음과 같습니다 (내가 잘못 될 수 있음).

트위터 닷컴과 전체 소방 호스 액세스를 고려해보십시오. 하루

  1. 200 백만의 트윗 - 평균 초당 2314tweets = 5.6MB/s의의.
  2. 현재 레코드 TPS (초당 트윗) : 7000. 각 트윗은 약 2.5KB = 7000 * 2.5KB = 17MB/초입니다.

내가 읽고 (일시적 말)이 데이터를 저장해야?

  • 초고속 인터넷. 최소 30MB/초 데이터 센터에서 이러한 종류의 인터넷 속도에 액세스 할 수 있습니까? 하나의 전용 컴퓨터가 직접 연결되어 있습니까?
  • 신뢰성 :이 기계가 고장 나면 어떻게됩니까? :-(- 여러 대의 컴퓨터 설정이 필요할 수 있지만 다른 연결을 통해 실시간으로 트위터 스트림을 나눌 수 없습니까?
  • 확장 성 : Twitter TPS는 가까운 시일 내에 급증 할 수 있습니까? ? 가까운 미래에 파이프
  • 빠른 harddisks : 64 메가 바이트 캐시 WD/씨게이트 서버 클래스 7200RPM이 1백28메가바이트/s의 신뢰성까지 수행 할 수 있습니다?이 하드 드라이브에 오류가 발생하면 어떻게됩니까 어떤 디스크의 무리가해야합니까? ? 그러나 설정을 RAID
  • 확장 성을 : 임시 저장을 위해이 우리를 작동합니다 하지만 2 억 개의 트윗을 보관해야하는 경우 확장 성이 뛰어난 솔루션이 필요할 것입니다. Hadoop HDFS는 좋은 생각입니까?
  • 보안 : 기업에서이 컴퓨터를 DMZ 외부에두기를 원하십니까? 그래서이 서버 클래스 머신에 데이터를 임시로 저장 (5 분) 한 다음 HDFS로 가져 오는 것이 좋습니다.

날, 사람들을 당신의 생각을 알려주십시오. 당신이 전체 트위터 firehose 꽤 비현실적인 시나리오라고 생각한다면, 내가 키워드의 무리와 일치 필터링 된 피드를 찾고 있다고 가정 해 봅시다 (하지만 나는 트위터를 놓칠 수 없다). 그런 시스템을 어떻게 구성 하시겠습니까?

+1

위대한, 닫으려면 요청,하지만 이유가! 이 질문에 지구상의 어떤 점이 잘못 됐습니까? – Jay

+1

일부 사람들은 너무 일반적이라고 생각할 수있는 약간의 기회가 있습니다. 단지 생각입니다. – home

+1

이 질문은 너무 광범위합니다. 당신은 여기서 많은 질문을하고 있습니다. 완전한 대답은 작은 논문 일 것입니다. –

답변

3

DataSift의 아키텍처에서 this article을 읽을 수 있습니다. 그들은 단지 그 일을합니다.

+0

저는 하둡 (Hadoop)에서 답을 정말 좋아했습니다 (더 좋은 포스터가 필요합니다).좋은 일을 계속 지켜라. –

+0

우수 - 이것은 나에게 좋은 아이디어 (구체적인 것은 아님)를 제공하지만 사물의 규모는 중요합니다. 이 점에 대해 정말 고마워합니다. 저는 항상 gnip 블로그를 검색해 왔으며, 데이터 이동 블로그를 살펴 보지 않았습니다. – Jay

관련 문제