2010-12-22 3 views
8

이 질문은 시스템을 설계하는 방법에 대한 실질적인 조언을 구하는 것입니다.거대한 데이터 세트의 정확성을 수집, 유지 및 보장하는 모범 사례는 무엇입니까?

amazon.com 및 pandora와 같은 사이트는 핵심 비즈니스를 운영하기 위해 거대한 데이터 세트를 보유하고 유지합니다. 예를 들어 amazon (및 기타 주요 전자 상거래 사이트)에는 수백만 개의 판매 제품, 해당 제품의 이미지, 가격, 사양 등이 있습니다.

타사 판매자로부터 오는 데이터는 무시됩니다. 사용자는 콘텐츠를 생성하여 "물건"을 어딘가에서 가져와 다른 사람이 관리해야합니다. 그것은 또한 매우 상세하고 정확합니다. 방법? 그들은 그걸 어떻게 햇어? 데이터 입국 사무원 군대가 있습니까? 아니면 불만 사항을 처리 할 수있는 시스템을 고안 했습니까?

우리 회사는 비슷한 상황에 있습니다. 우리는 엄청난 수의 자동차 부품 카탈로그와 자동차 부품 카탈로그를 보유하고 있습니다. 우리는 지금 당분간 그 일을 해왔으며 카탈로그를 계속 성장시키고 유지하기위한 많은 프로그램과 프로세스를 제안했습니다. 그러나 카탈로그를 x 카탈로그로 성장시켜 팀을 y으로 성장시켜야하는 것 같습니다.

데이터 팀의 효율성을 높이는 몇 가지 방법을 찾아야하며 다른 사람들의 작업에서 배울 수 있기를 바랍니다. 모든 제안은 만족 스럽습니다. 콘텐츠에 대한 링크 일지라도 더 심각한 시간을 읽을 수는 있습니다.

답변

5

방문자를 사용하십시오.

  1. 당신은 항목 당 한 사람이하더라도, 잘못된 기록이있을 것이다, 고객 그것을 발견 할 것이다.따라서 항목을 "부적절한"항목으로 표시하고 간단한 설명을 남기십시오. 그러나 잊지 말고, 그들은 당신의 직원이 아닙니다. 너무 많이 묻지 마십시오. Facebook의 '좋아요'버튼을 사용하면 손쉽게 사용할 수 있으며 사용자가 너무 많은 에너지를 소비하지 않아도됩니다. 좋은 성능/가격. "왜 당신이 좋아하니?"라고 물어 보는 페이스 북에 필수 필드가 있다면 아무도 그 기능을 사용해서는 안됩니다.

  2. 방문객은 항목 페이지를 방문하고 검색 기능을 사용합니다 (내부 검색 엔진과 Google과 같은 외부 검색 엔진을 모두 의미 함). 방문자의 활동에서 정보를 얻을 수 있습니다. 예를 들어 가장 많이 방문한 항목의 순서를 설정하면 목록 상단에 더 많은 인력을 집중시켜야하며 '긴 꼬리'는 줄여야합니다.

3

구현이 아닌 팀/코드/데이터 관리에 대한 내용이므로 아마존에 대해 언급 한 이후로 유용하다고 생각할 것입니다. http://highscalability.com/amazon-architecture.

특히 Werner Vogels interview에 대한 링크를 클릭하십시오.

+0

감사합니다. 지금 확인하고 있습니다. –

3

처음부터 올바르게 구축하십시오. 저장중인 항목에 따라 사용중인 데이터베이스에서 사용할 수있는 모든 무결성 검사 방법을 사용해야합니다. 나쁜 데이터보다 업로드 실패가 자동으로 발생하는 것이 좋습니다.

그런 다음 자신의 무결성 검사와 관련하여 수행 할 작업을 파악하십시오. DB 무결성 검사는 좋은 시작이지만 거의 필요한 것은 거의 없습니다. 또한 처음부터 작업중인 데이터의 유형, 저장 방법 및 불량하거나 의심스러운 데이터를 인식하고 신고하거나 거부하는 방법에 대해 생각하게합니다.

가비지 데이터로 가득 찬 오래된 시스템을 재 작업 (또는 매일 매일 함께 사용)하면 고통의 양을 알 수는 없습니다. 그것을 올바르게하고 그것을 전면적으로 테스트하는 것은 고통처럼 보일 수 있습니다. 그러나 보상은 대개의 경우 윙윙 거리며 아무런 개입이 필요없는 시스템을 가지고 있습니다.

링크의 경우 확장성에 대해 생각하고 설계해야하는 사람이 있다면 Google입니다. 이 유익한 정보는 유익 할 것입니다. http://highscalability.com/google-architecture

1

공급 업체와 날짜를 공유하십시오. 그런 다음 데이터가 한 번 입력됩니다.

중요한 경우 한 번 완료해야하며 그렇지 않은 경우는 완료해야합니다.

+0

우리가 이렇게하면 우리는 사업을 영위 할 수 있습니다. 우리는 데이터를 관리하고 (다른 모든 사람들에게 데이터를 보냄으로써 한 번만 수행됩니다.) –

1

저는 데이터 마이닝에 막대한 투자를 할 것입니다. 판매하려는 제품에 대해 최대한 많은 피드를 확보하십시오. Mitchell 및 Haynes와 같은 자동차 수리 업체뿐만 아니라 공급 업체로부터 차량에 대한 피드를 직접 받으십시오.

필요한 부품을 알고 있으면 해당 부품 번호와 인 터넷에서 사용할 수있는 부품 번호를 상호 연관 시키십시오. 또한 해당 부품 번호를 이미지, 리뷰 및 기사와 상호 연관시킵니다. 가능한 한 많은 정보를 한 페이지에 집계하여 Google에 색인을 생성하도록하십시오.

데이터 집계의 결과에 따라 각 제품에 일련의 가중치를 지정하십시오. 당신의 무게의 가치에 기초를 두어 직원에게 결과를 전달하고 공급자와 가격을 협상하고, 페이지를 창조하고 근원에 연결하십시오 (당신이 임무를받을 것이라는 점을 전제로), 또는 부분을 판매하지 마십시오 .

한 곳에서 충분한 제품을 확보하면 웹 사이트에 제품을 추가하려는 다른 사용자를 지원할 수 있습니다. Amazon에서 사용 가능한 자원의 범위는 제 3 자 판매 인을 지원하고 Amazon 웹 사이트에 판매 인을 허용하기 때문에 큰 부분을 차지합니다.

특히 자동차 산업에서 나는 고품질의 색인 생성에있어 Google 검색 가능하고 특정 구성 요소를 교체하려는 사람들이 논리적으로 쉽게 찾을 수있는 훌륭한 색인이라고 생각합니다. 구매에 관심이있는 구성 요소를 기반으로 IP 지리적 위치를 통해 위치 별 서비스를 판매/제공하는 방법을 살펴볼 수도 있습니다.

2

Master Data Management은 제안 된 다른 대안입니다. Here은 Microsoft의 기사 "마스터 데이터 관리의 목적, 이유 및 방법"입니다. Data stewards은 기업의 데이터 정확성을 유지할 수있는 권리/책임을 부여받습니다.

규모를 키우는 능력은 데이터 기술자가 정보를 관리 할 수있는 유일한 사람이 아니기 때문에 비즈니스와 기술을 조화시키는 데 있습니다. 비즈니스 소유자는 도구 및 프로세스/프로 시저를 사용하여 엔터프라이즈 데이터를 관리 할 수 ​​있습니다.

1

google과 같은 사이트에서 관리하는 데이터는 대부분 사용자가 제공합니다. 나는 나의 데이터를 입력하고 그 정확성을 책임진다. 사이트는 데이터를 가지고 있으며 웹에서 캡처됩니다. 검색 데이터는 검색에서 캡처됩니다. 이것은 시도하고있는 것과는 크게 다를 가능성이 있습니다. Google 직원이 아무 것도 할 필요가 거의 없습니다.

제조업체의 피드를 사용하면 인력을 집중적으로 줄일 수 있습니다. 절충안은 데이터 변환 소프트웨어에 투자하는 것입니다. 각 상호 참조에 대한 소스를 캡처 할 수 있습니다. 이렇게하면 업데이트를 얻을 때 재로드가 쉬워집니다.

내 경험에 의하면 상호 참조가 단방향 일 수 있다는 문제가 있습니다. A는 B를 대신 할 수 있지만 B는 A를 대체 할 수 없습니다.

직접 입력 한 경우 오류가 발생합니다. 이러한 오류를 감지하기 위해 인터페이스에서 수행 할 수있는 모든 작업이 그럴만 한 가치가 있습니다. 직원에 대한 입력 음량은 선형으로 조정해야합니다.

주의주기에 대한 연구를 검토하여 입력 및 검증 프로세스의 품질을 향상시킬 수 있는지 판단하십시오. 보안 검사에 대한 최근 연구에 따르면 확인 데이터에주기적인 오류가 발생할 수 있습니다.

다른 언급했듯이 사용자가 오류를 쉽게 신고하도록하는 것이 좋습니다.

관련 문제