2013-01-23 4 views
5

전 이야기를 XML로 저장하는 뉴스 웹 사이트에서 일합니다. 나도 알아, 최선의 방법은 아니지만, 그것이 무엇인지 알 수있다. 내가하려는 것은 웹 사이트에서 XML 파일을 검색하는 것입니다. 현재 Google의 검색 기능은 Google에서 제공하는 모든 기능입니다 (Google에서 이미 크롤링 한 항목 만 검색합니다).XML 파일 검색 또는 인덱싱

내가 방망이에서 바로 생각하는 것은 Grep을 사용하는 것인데, 어떤 종류의 작업이 문제가되지 않지만 너무 크게 확장되지는 않습니다. 훨씬 더 많은 작업을 수행 할 수 있지만 더 잘 작동하는 다른 옵션은 XML의 일부를 관계형 데이터베이스에 저장하는 것입니다.

우리의 백엔드 설정 방법을 감안할 때 다른 스토리지 모델로 이동하는 데는 시간이 오래 걸릴 것이므로 당분간은이 작업을해야합니다. 아이디어?

답변

3

캐싱을 추가하면 grep 아이디어를 수평 확장하는 데 도움이됩니다. 그러나 오늘날 문제를 해결할뿐만 아니라 내일의 솔루션을 더 가까이 사용할 수있는 솔루션을 고려할 수도 있습니다. 어쩌면 더 나은 솔루션을 설계하고 시간을두고 조각을 구현하는 것이 트릭을 수행 할 것입니다.

0

XML 사용에 전념한다면 Berkeley DBXML 또는 eXist-db와 같은 원시 XML 데이터베이스 솔루션을 사용하는 것이 좋습니다. 둘 다 xqueries를 불에 넣을 수 있습니다. eXist는 DBXML이 수행하지 않는 전체 텍스트 검색도 구현하지만 후자는 데이터 검색 속도가 빠릅니다.

1

정말 빠르기 때문에 BaseX (.org)와 같은 XML 데이터베이스 시스템을 사용하는 것이 좋습니다. 각 기사를 별도의 파일에 저장하는 것이 좋습니다. BaseX는 XQuery 3.0과 전체 텍스트, 업데이트 기능을 지원합니다 ...