2009-08-12 2 views
3

좋아, 상황은 다음과 같습니다. 약 50 개의 열 (데이터베이스 테이블 조인으로 작성)과 수천 개의 행이 있습니다. 우리는 그 데이터의 여러 가지 알려진 오류 기록에서 패턴을 식별해야합니다. 여기에 정말로 끓인 예제가 있습니다. 주어진 표 :테이블의 데이터 패턴을 식별하는 일종의 오픈 소스 라이브러리가 있습니까?

----------------------- 
| id | title | date | 
----------------------- 
| 01 | c  | 2009-01| 
| 02 | a  | 2009-02| 
| 03 | a  | 2009-02| 
| 04 | b  | 2009-03| 
| 05 | b  | 2009-03| 
| 06 | a  | 2009-04| 
----------------------- 

그리고 라이브러리에 나와있는 행 1,4,5가 어떻게 관련되어 있는지 묻습니다. 또는 다른 행과 다른 점은 무엇입니까? 이 라이브러리는 말할 것입니다 :

  • 선택된 모든 행

    모든 선택된 행 '는'

는 아마도 라이브러리가 피벗의 일련의 반복되는 = 제목이없는

  • 홀수 달 수 있습니다 엑셀의 테이블 그룹. 재미있는 그룹화 및 계산 조합을 찾을 때마다 알려줍니다.

    실제 상황 (이상한 경우에만 해당) : 정확한 상황은 데이터 변경이 어떻게 든 '실행 취소'되었음을 알게 된 것입니다. 변경 사항을 '다시 실행'하고 막대기가되기를 기대하는 대신, 왜 발생했는지 파악하려고 노력하고 있습니다. 여기에 실제 열 가능한 데이터 패턴의 일부는 다음과 같습니다

    ----------------------------------------------------- 
    | id | user | created_on| facility | review_status | 
    ----------------------------------------------------- 
    | 01 | tom | 2009-01 | Bay  | Locked  | 
    | 02 | berry | 2009-02 | Inner |    | 
    | 03 | jan | 2009-02 | Hamming | Submited  | 
    | 04 | bernie| 2009-03 | Youth | Accepted  | 
    | 05 | jack | 2009-03 | Johnson | Locked  | 
    | 06 | frank | 2009-04 | Baber St.|    | 
    ----------------------------------------------------- 
    

    우리의 문제는 '잠'만 아니었다으로 검토 상태 (5 열) 모두가 표시되어 있어야한다는 것입니다.

    누구나 이런 종류의 패턴 검색 라이브러리를 알고 있습니까? 아래의 긴 대답은 머리에 못을 박았다. DATA MINING 소프트웨어는 돈이 맞는 것 같지만 솔루션은 오픈 소스 또는 "맥주처럼 자유"솔루션이어야합니다. 감사합니다. 모두들!

    P. Petitio principii 답변 또는 초기 질문에 대답하지 않으려는 답변은 고려되지 않습니다 (실제로는 예상 한 방식이 아닌 것으로 간주됩니다).

  • +0

    알 수없는 패턴을 찾으십니까? 어떤 패턴? – markus

    +0

    정확히 무엇을 찾고 있습니까, 무엇이 결함이 있습니까? 어떻게 결함이 있습니까? – markus

    +0

    물론 ... ... 위의 명확한 설명이 추가되었습니다 – btelles

    답변

    0

    우리가 필요로하는 것이 정확히 발견되었습니다 : Weka Machine Learning Library.

    http://www.cs.waikato.ac.nz/ml/weka/

    강하게 펜타에 의해 백업 된 데이터 마이닝 라이브러리입니다. Weka의 "관련 프로젝트"섹션에서 오픈 소스의 장점을 확인하십시오.

    내 게으른 엉덩이에 행운이 있기 때문에 Rarff의 Rubyforge에도 Ruby 바인딩 라이브러리가 있습니다.

    +0

    @ btelles : 이것이 허용 대답은, 나는 upvoting가 필요하다고 생각합니다. – lmsasu

    3

    일종의 데이터 마이닝을 수행하려는 것 같습니다. 잠재적으로 데이터를 분류하고 클러스터링 할 수있는 분류 알고리즘에 데이터를 전달할 수 있습니다. 그러나 당신은 단지 데이터를 통과하는 데 당신을 데려 갈 것 보다이 작업을 얻으려고 오래 걸리는 찾을 수 있습니다 :)

    만약 당신이 주말에 약간의 시간을 가지고있어 펜타 보 Weka 봐 이

    진정한 데이터 마이닝 소프트웨어를 할 수있는 데이터들뿐만 아니라 변화 프리젠 테이션, 실제로 발견하여 이전에 알 수없는 관계한다.

    웨카

    http://www.cs.waikato.ac.nz/~ml/weka/index.html

    당신이 procedure_analyse를 실행, MySQL을 사용하는 경우 펜타 http://community.pentaho.com/faq/data_mining.php

    +0

    응답 해 주셔서 감사합니다.하지만 오픈 소스 또는 "맥주처럼 무료"솔루션이어야합니다. 그 것을 설명에 넣는 것을 잊어 버렸습니다. – btelles

    +0

    @btelles Weka는 GNU 일반 공중 라이선스 – pjp

    +0

    에 따라 발급 된 오픈 소스 소프트웨어입니다! 나는 원래의 답변에서 weka를 완전히 건너 뛰었습니다! 죄송합니다! 선호하는 답변을 변경할 수있는 방법이 있습니까? – btelles

    0

    에 의해 사용 된 바와 같이, 여기 http://www-users.cs.umn.edu/~kumar/dmbook/index.php

    데이터 마이닝에 대한 몇 가지 좋은 소개 슬라이드가 있습니다 (where) 절을 적절히 좁히면 어떤 통찰력을 줄 수 있습니다.

    0

    "우리는 그 데이터의 여러 가지 알려진 오류 레코드에서 패턴을 식별해야합니다."

    단어의 선택이 데이터 자체가 잘못되지 않았 음을 의미하는 것으로 보이지만 데이터의 RECORDS 만 문제는 해결되지 않습니다.

    "예방"(잘못된 데이터 기록)은 일반적으로 같은 것을 "치유"하는 것보다 비용이 적게 든다고 지적하고 싶습니다.

    "데이터 오류"는 초기 분석/구현에서 무엇인가 간과 한 결과입니다. 항상. 따라서 데이터 결함에서 "패턴"을 찾으려면 초기 분석/구현을 다시 생각하고 어떤 실수가 있었는지 알아 내려고 시도하십시오.

    관련 문제