저는 파이썬을 배우고 일부 NLP를 배우기를 원했기 때문에 결국 마침내 시작했습니다. 시작하기에 좋은 chunky 데이터 셋을위한 영어 wikipedia 미러를 다운로드 받았고 약간의 주위에서 놀았습니다.이 단계에서 sqlite db (havent는 과거의 불행에서 dbs로 작업했습니다)에 그 중 일부를 가져 왔습니다.NLP 시작하기 - Python + 대용량 데이터 세트
하지만 sqlite가 완전한 nlp 프로젝트 (/ 실험 :)로가는 길은 아니라고 생각합니다. - 내가 봐야 할 것들이 무엇일까요? HBase (.. and hadoop)는 재미있을 것 같아요. 저는 파이썬에서 프로토 타입을 만들고 아마 자바로 옮길 수있을 것 같습니다. 대신 mysql을 실행합니다. 그러나 데이터 셋은 12GB입니다. 문제가 되겠습니까? 또한 lucene을 보았지만 확실하지는 않습니다. (위키 기사를 덩어리로 분해하는 것 이외에) 나는 그걸 작동시킬 것입니다 ..
정말 유연한 NLP 플랫폼에 대해 어떻게 생각합니까? 내가 뭘하고 싶은지 .. 단지 대규모 lang 분석 tbh을 배우고 싶습니까?)
감사합니다.