나는 여러 페이지의 문서 (아마도 약 500 개 이상의 페이지) 사이에서 단어의 모든 발생을 인식하려고합니다. 나는 이미 단어가 나오는 페이지를 찾는 작업을 완료했습니다. 예를 들어 컴퓨터라는 단어가 나오는 모든 페이지를 나열하고 싶습니다.문서 단어 색인 데이터베이스 구조?
웹 서비스를 통해 신속하게 검색 할 수 있도록이 데이터를 저장하는 가장 좋은 방법은 무엇입니까?
테이블 구조 : VARCHAR (30) WORD, 방울 페이지
그리고 단어가 바로 다음 발생 위치를 페이지 필드는 모든 페이지의 쉼표로 구분 된 목록 수있는 내 본능은 그런 짓을하는 것입니다 그것을 분해하고 쿼리가 WORD 필드와 일치 할 때 모든 페이지를 나열하십시오. 비록 이것을 달성하는 더 효율적인 방법이 있는지 궁금하네요? 그게 내가 가장 익숙하기 때문에 MySQL과 PHP/Zend를 사용하고있을 가능성이 높습니다. 그러나 당신이 더 좋은 아이디어를 가지고 있다면, 나는 그들에 대해 분명히 열어두고 있습니다.문서의 모든 고유 단어에 대해 행이 필요하므로 테이블이 매우 길어질 수 있습니다. 아마도 나는 3 ~ 4 자보다 짧은 것은 아무것도 없지만 여전히 10 ~ 20k 단어 이상을 상상할 것입니다. 행 목록을 영문자 순으로 정렬하면 데이터베이스 서버에서 더 쉽게 만들 수 있습니까? (예 : 사과, 사과, 가지가 오름차순입니까?) MySQL이 처리 할 수 있습니까? 뭔가 더 잘 처리 할 수 있을까요?
마지막으로 흥미로운 데이터를 수집/제공 할 수있는 구조 스키마가 더 있습니까? (즉, 사용자에게 가까운 곳에 자주 나타나는 관련 단어 제공)
데이터베이스에서 CSV를 절대로 사용하지 않겠습니다. :) 팁 주셔서 감사! – Emeka