많은 양의 시공간 데이터 저장 및 처리

연구 그룹의 일환으로, 우리는 많은 양의 위치 데이터를 수집하고 있습니다. 우리의 데이터는 본질적으로 (사용자 ID, 위도/경도 좌표, 타임 스탬프)처럼 보입니다. 다른 메타 데이터도 관련되어 있지만 여기에는 관련이 없습니다. 우리는 일주일에 약 2 ~ 3 백만 건의 레코드를 수집 중이며 기한 내에 약 1 년간의 데이터를 수집 할 것으로 예상합니다.많은 양의 시공간 데이터 저장 및 처리

이 데이터를 저장하고 처리하는 기술에 대한 조언을 정말 듣고 싶습니다.

(1) 특정 위치에 대해 지정된 시간 동안 해당 위치 (특정 거리 내)에 있었던 사람은 누구입니까?

(2) 어느 위치가 서로 가까이 있습니까?

그게 일반적인 생각입니다. 우리는 실시간 응답이 필요하지 않지만 좋은 데이터베이스 (또는 다른 데이터 저장 소프트웨어)는 무엇입니까? 나는 k-d 나무에 대해 이야기하는 사람들을 만났습니다.이 규모에서 효과가 있습니까? 어떤 종류의 하드웨어가 필요합니까? 저는 일반적인 전략에 대한 조언을 얻기를 희망합니다. 이 데이터는 어떻게 저장합니까? 그것을 데이터베이스에 모두 저장하는 것이 합리적일까요? 어떤 데이터/소프트웨어/패키지가 거리/반경 계산에 적합합니까?

우리는 Python/Linux에 대해 가장 잘 알고 있습니다. Java를 사용하지 않고 오픈 소스/무료 소프트웨어를 선호합니다. 우리는이 모든 것을 처음 접했고 책과 논문을 가리키는 포인터도 유용 할 것입니다. 모든 조언과 조언이 매우 유용 할 것입니다.

출처

2011-03-18 Khandelwal

나는 mysql을 사용하고 mysql 쿼리를 찾아 낼 것이다. –

PostGIS 아마도 당신이 찾고있는 것입니다.

출처

2011-03-18 15:41:59

당신은 파이썬을 사용하여 액세스하고 스크립트를 작성할 수 있습니다. GDAL/OGR은 또한 데이터베이스로부터 래스터 및 벡터 데이터를 생성하는 것을 도울 수 있습니다 (그리고 파이썬 바인딩도 가지고 있습니다). – Benjamin

위도, 위도/경도 쌍, 타임 스탬프 만있는 경우 PostGIS는 잔인합니다. SimpleGeo 사람들은 간단한 지형 데이터를 대규모로 스케일링하는 방식에 대해 블로그를 작성하고 발표했습니다. – sgillies

많은 양의 시공간 데이터 저장 및 처리

답변

관련 문제