2012-07-17 3 views
1

우리는 압축 된 형식으로 약 6000 만 웹 페이지를 가지고있다. 압축을 풀고이 파일들을 개별적으로 작업하고 싶습니다.보관 HTML 파일은

여기 내 질문 있습니다! 내가 파일 시스템에 압축을 풀지 경우

첫째는 FS 파일의 같은 번호로 대처한다. 내 파일 시스템은 ext4입니다. 둘째

, 더 좋은 옵션이 될 관계형 데이터베이스에이 파일을 저장겠습니까 (I 각 파일 시스템에 대한 15 M 페이지처럼 그들 사이의 데이터를 나눌 수 있도록 나는 4 개의 다른 파일 시스템했습니다)? html 텍스트를 정리하는 모든 번거 로움이 데이터베이스에 삽입되기 전에 완료되었다고 가정합니다.

감사합니다,

답변

0

단일 디렉토리에 압축을 해제하면 해당 폴더의 최대 할당 된 인덱스를 초과 할 수 있습니다. 여러 디렉토리에 압축을 풀면 공정하게 개선됩니다.

60 백만은 확실히 색인입니다. 색인 생성을 수행하거나 데이터베이스를 검색하는 것이 가장 좋습니다. lucene과 같은 파일을 사용하여 색인을 생성 할 수 있습니다. 모두 원하는 대상에 따라 다릅니다. 파일로 수행 이후에 추출되었습니다.

현재 대형 사용자 사이트에서 이미지와 비슷한 문제가 있습니다.이 문제를 해결하기 위해 각 이미지에 GUID를 부여하고 guid의 각 바이트에 다른 디렉토리에 할당 한 다음 다음 바이트 내 채우기 비율이 올라가면 서브 디렉토리 아래로 (8 바이트까지) 보충 할 하위 디렉토리가 더 만들어집니다. 다른 넷 저장소 상자에도 분산시킬 수 있습니다.

+0

감사합니다. 나는 이것이 내가 할 일이라고 생각한다. 나는 다른 디렉토리로 그것을 나눌 것이고 잘하면 그것은 잘될 것이다. – Joe