3
파이썬을 사용하여 문서 검색을 만들고 싶습니다. Solr은 Java 호스팅이 제약 조건 이었기 때문에 아무런 의미가 없었습니다.Whoosh : MS 문서, PDF 인덱싱
그래서 whoosh는 명백한 옵션입니다. 그러나 doc 또는 pdf 파일을 기본적으로 색인 화하는 것은 아닙니다 (Solr이 할 수있는 것처럼). 이러한 파일을 직접 색인 생성하는 방법은 무엇입니까?
파이썬을 사용하여 문서 검색을 만들고 싶습니다. Solr은 Java 호스팅이 제약 조건 이었기 때문에 아무런 의미가 없었습니다.Whoosh : MS 문서, PDF 인덱싱
그래서 whoosh는 명백한 옵션입니다. 그러나 doc 또는 pdf 파일을 기본적으로 색인 화하는 것은 아닙니다 (Solr이 할 수있는 것처럼). 이러한 파일을 직접 색인 생성하는 방법은 무엇입니까?
Whoosh는 해당 문서에서 추출한 텍스트 만 있으면됩니다. Whoosh 라이브러리가 당신을 위해 그 추출을하지는 않지만 pdf miner, catdoc 또는 antiword와 같은 텍스트를 추출 할 Python 라이브러리가 있습니다.
자세한 내용은이 두 가지 논의를 참조하십시오