3
줄 당 150 만 줄 및 50-100 줄의 텍스트 파일을 고려하십시오.색인이 생성되지 않은 텍스트 파일에서 단어를 검색하는 가장 빠른 방법 - Python
는 os.popen('grep -w word infile')
가 될 것으로 보인다 사용하여 단어를 포함하는 행을 찾으려면보다 빠른
for line in infile:
if word in line:
print line
어떻게 다른 하나는 파이썬에서 TEXTFILE에서 단어를 검색 할 수 있을까? 그 큰 unindex 텍스트 파일을 검색하는 가장 빠른 방법은 무엇입니까?
정규식을 사용하면 매우 빠르다고 생각합니다. 하지만 파일이 매우 크기 때문에 정규식 분석을 위해 RAM에로드 할 수 없습니다. 그러나 큰 덩어리로 파일을 읽고 각각의 덩어리를 하나씩 정규식으로 분석하는 것이 가능합니다. 이렇게하면 연구 된 문자열이 두 개의 청크 위에 겹쳐져 발견되지 않을 수 있습니다. 따라서 청크 분석은 특정 방식으로 수행되어야합니다. 나는 이미 같은 코드를 작성하고 stackoverflow.com에 게시했습니다. 그것을 찾아 보자. – eyquem
코드가 문자열을 감지하도록 의도 된 다음 게시물 (http://stackoverflow.com/questions/16583591/read-a-very-big-single-line-txt-file-and-split-it)을 찾았습니다. ROW_DEL을 큰 파일에 저장하고 더 짧은 문자열로 대체하십시오. 당신의 문제는 패턴을 탐지하는 것일뿐입니다. 나는 당신이 내가 덩어리 (chunk) 후에 텍스트 덩어리를 분석하고 제한된 필요에 그것의 원리를 적용하는 방식을 조사하기 위해 인용 된 게시물을 살펴볼 수 있다고 생각한다. – eyquem