2009-09-24 3 views
2

다양한 제품에 대한 리뷰가 가득한 데이터베이스가 있습니다. 내 임무는 다양한 계산을 수행하고 집계 된 데이터로 또 다른 "데이터베이스/XML 내보내기"를 "생성"하는 것입니다. 파이썬에서 커맨드 라인 프로그램을 작성하려고 생각하고 있습니다. 그러나 나는 누군가가 전에 이것을 한 것을 알고 있으며 아마도 오픈 소스 파이썬 솔루션이나 이와 유사한 것들이 더 재미있는 "집계 된 데이터"를 제공 할 것이라는 것을 안다. 아마도 나는 생각할 수도있다.오픈 소스 데이터 마이닝/파이썬 텍스트 분석 도구

문제는 명령 행에서 기본 데이터 조작 이외의 다른 영역에 대해 잘 모르는 것이 아니라이 항목을 검색하는 데 사용해야하는 용어가 무엇인지를 아는 것입니다. 실제로 어떤 것을 찾지는 못합니다. 과학/시각화 도구 (도구가 제공하는 경우라면 상관 없지만)부터 시작하여 점차적으로 필요한 항목을보고 개발할 수 있습니다.

내 유일한 요구 사항은 데이터베이스에 있거나 "소유권이없는"XML 파일로 내보내기 "최종 집계 된 데이터"입니다. 그 다음으로 내 파이썬 스크립트가 강해서 4 대의 컴퓨터에서 "많은"데이터를 처리해야합니다.

어디에서 조사해야합니까?

감사합니다.

답변

1

데이터 통합 ​​ 솔루션을 찾고 계신 것으로 보입니다.
제안 사항 중 하나는 Pentaho 제품군의 오픈 소스 Kettle project입니다. 파이썬
는 빠른 검색이 나는 경우에, 날짜/시간, 텍스트 (예 : 리뷰) 그 리뷰 (그래서 스레드 주석과 같은 자사의 비트)의 의견/응답이, PyDI 일반적인 관점에서 SnapLogic

+0

이 펜타 호는 재미있을 것 같습니다. 내 생각에 많은 비용이 듭니다 !! .. – wailer

+0

오픈 소스 커뮤니티 에디션이 있습니다 (지원하지 않는 경우) : http://community.pentaho.com/ – Amro

1

어떤 종류의 분석을 시도하고 있습니까?

텍스트를 분석하는 경우 Natural Language Toolkit (NLTK)을 살펴보십시오.

데이터를 색인 생성하고 검색하려면 whoosh 검색 엔진을 살펴보십시오.

어떤 종류의 분석을하고 싶으십니까?

+0

를 산출 나는 리뷰에 URL이 있으며, 그의 포인트 등등과 같은 사용자와 관련된 다른 것들이 있습니다. 이제 NLP로 텍스트를 분석하고 싶습니다. 또한 "컴퓨터"범주에서 리뷰 수와 같은 값을 추출/계산하고 싶습니다. 얼마나 자주 의견이 구별되는지 등을 시작하십시오. 더 많은 정보를 얻길 바랍니다. 위에서 언급 한 사람들을 살펴 보겠습니다. 감사합니다. . – wailer

관련 문제