2010-04-03 3 views
3

저는 파이썬을 배우고 일부 NLP를 배우기를 원했기 때문에 결국 마침내 시작했습니다. 시작하기에 좋은 chunky 데이터 셋을위한 영어 wikipedia 미러를 다운로드 받았고 약간의 주위에서 놀았습니다.이 단계에서 sqlite db (havent는 과거의 불행에서 dbs로 작업했습니다)에 그 중 일부를 가져 왔습니다.NLP 시작하기 - Python + 대용량 데이터 세트

하지만 sqlite가 완전한 nlp 프로젝트 (/ 실험 :)로가는 길은 아니라고 생각합니다. - 내가 봐야 할 것들이 무엇일까요? HBase (.. and hadoop)는 재미있을 것 같아요. 저는 파이썬에서 프로토 타입을 만들고 아마 자바로 옮길 수있을 것 같습니다. 대신 mysql을 실행합니다. 그러나 데이터 셋은 12GB입니다. 문제가 되겠습니까? 또한 lucene을 보았지만 확실하지는 않습니다. (위키 기사를 덩어리로 분해하는 것 이외에) 나는 그걸 작동시킬 것입니다 ..

정말 유연한 NLP 플랫폼에 대해 어떻게 생각합니까? 내가 뭘하고 싶은지 .. 단지 대규모 lang 분석 tbh을 배우고 싶습니까?)

감사합니다.

답변

4

NLTK 어디에서 시작해야할까요? (파이썬 기반입니다. 왜 초기 단계에서 처리를 병렬 처리하는지에 대해 이미 확신하지 못했습니다 ... 더 유연한 실험 설정으로 시작하십시오.) . sqlite는 몇 GB에서 괜찮을 것입니다 - 고급 SQL 표준 파워가 필요하다면 postgresql으로 생각할 수 있습니다.

1

anlaysis를 수행하는 동안 텍스트를 나타 내기 위해 벡터 공간 모델을 사용할 가능성이 큽니다.

이 경우 용어 빈도가있는 용어 벡터를 저장할 수있는 플랫폼을 찾아야합니다. 그것은 당신의 삶을 훨씬 더 쉽게 만듭니다.

Java Lucene에 액세스하기 위해 python library이있는 Apache Lucene을 살펴보십시오. Elasticsearch 또한 아파치 루씬 (Apache Lucene)을 밑으로 사용하고 실제로는 좋은 python package을 가지고있는 좋은 대안입니다. Elasticsearch는 REST API도 노출합니다.

Postgresql도 토큰을 저장하는 데 정말 좋습니다. 자세한 내용은 article을 확인하십시오.

저는 전에 상당한 규모의 언어 데이터로 작업 해 왔으며 저는 개인적으로 분석 프로젝트를 위해 Lucene/Elasticsearch를 선호합니다.

건배.

관련 문제