많은 문서 (백만 +)에서 많은 단어 (1000+)를 자주 검색해야합니다. 일치하는 단어의 위치가 필요합니다 (일치하는 경우). 코드의많은 문서에서 파이썬을 사용하여 많은 표현식을 검색하십시오.
그래서 느린 의사 버전은
for text in documents:
for word in words:
position = search(word, text)
if position:
print word, position
이 일에 대한 빠른 파이썬 모듈이 있습니까
입니까? 아니면 직접 구현해야합니까?
1000 개 단어에 대한 수백만 문서? 왜 당신의 솔루션이 수십 가지의 솔루션보다 더 좋을 것이라고 생각합니까? 수백만 건의 문서가 사소하지 않습니다. – Falmarri
@Falmarri : 문제의 핵심은 파이썬 모듈 형태로 수 십 개의 솔루션 중 하나를 찾는 것이라고 생각합니다. – nmichaels
기본적으로 전체 텍스트 색인을 원하십니까? –