2012-09-10 3 views
1

시맨틱 텍스트 분석기를 만들고 싶습니다. 그렇게하기 위해서는 데이터베이스에 뿌리가 많이 필요합니다. 기본 어휘는 약 10 만 단어입니다. 패턴 또는 공통 아키텍처가 있고 어떤 종류의 데이터베이스 (관계형 또는 nosql (아마도 mongodb))를 사용해야합니까?사전에 대한 데이터베이스 선택

26 글자이며 각각 수천 단어가 시작될 수 있습니다. 관계형 데이터베이스를 사용하는 경우 각 문자에 대해 26 개의 다른 테이블을 작성해야합니까? 아니면 nosql을 사용하여 모두 함께 저장해야합니까?

+0

한 번로드하는 하나 또는 26 개의 텍스트 파일을 만드는 것이 어떻습니까? 전체 데이터 세트를 메모리에로드해야하는 것처럼 보입니다. 그렇지 않습니까? –

+0

나는 DB가 필요하지 않도록 이것을하지 않습니다. 내가 요구 사항에 맞는 데이터 구조로 갈 것입니다. Trie http://en.wikipedia.org/wiki/Trie –

+0

스티브, 루카스, 나는 데이터를 데이터베이스에 저장하지 않는 것이 좋습니다. 나는 텍스트가 쓰여진 시간을 확인하려고 다른 기간 (다른 세기)을위한 기초 어휘를 필요로한다. – Sergey

답변

1

WORDNET으로로드 된 Oracle SPARQL이 좋습니다.