.doc .docx .odt 및 .pdf 유형 파일의 단어 수를 얻으려고합니다. .txt 파일의 경우 매우 간단하지만 언급 된 유형의 단어 수를 계산하려면 어떻게해야합니까?파이썬에서 단어 문서에 단어 개수를 얻는 방법?
저는 우분투에서 파이썬 django를 사용하고 있습니다. 사용자가 시스템을 통해 파일을 업로드 할 때 워드 수를 계산하려고합니다.
.doc .docx .odt 및 .pdf 유형 파일의 단어 수를 얻으려고합니다. .txt 파일의 경우 매우 간단하지만 언급 된 유형의 단어 수를 계산하려면 어떻게해야합니까?파이썬에서 단어 문서에 단어 개수를 얻는 방법?
저는 우분투에서 파이썬 django를 사용하고 있습니다. 사용자가 시스템을 통해 파일을 업로드 할 때 워드 수를 계산하려고합니다.
먼저 .doc .docx.odt과 .pdf을 읽어야합니다.
두 번째로, count 단어 (<2.7 version).
.txt 파일에 대해이 작업을 수행 할 수 있다고 가정하면 단어 수를 계산하는 방법을 알고 있다고 가정하고 다양한 파일 형식을 읽는 방법을 알아야합니다. 이 도서관에서보세요 :
PDF : pypdf
문서/DOCX : this question, python-docx
ODT : 나는 DOCX 파일에 대한 파이썬 DOCX을 사용 examples here
. pdfminer가 pdf를 텍스트로 변환하는 데있어 pypdf보다 더 나은 것으로 나타났습니다. .doc 파일에 대해서는 antiword를 사용해야합니다. 아직도 체크 아웃 odt. 귀하의 회신에 감사드립니다. – darren