2011-09-23 31 views
2

.doc .docx .odt 및 .pdf 유형 파일의 단어 수를 얻으려고합니다. .txt 파일의 경우 매우 간단하지만 언급 된 유형의 단어 수를 계산하려면 어떻게해야합니까?파이썬에서 단어 문서에 단어 개수를 얻는 방법?

저는 우분투에서 파이썬 django를 사용하고 있습니다. 사용자가 시스템을 통해 파일을 업로드 할 때 워드 수를 계산하려고합니다.

답변

0

.txt 파일에 대해이 작업을 수행 할 수 있다고 가정하면 단어 수를 계산하는 방법을 알고 있다고 가정하고 다양한 파일 형식을 읽는 방법을 알아야합니다. 이 도서관에서보세요 :

PDF : pypdf

문서/DOCX : this question, python-docx

ODT : 나는 DOCX 파일에 대한 파이썬 DOCX을 사용 examples here

+0

. pdfminer가 pdf를 텍스트로 변환하는 데있어 pypdf보다 더 나은 것으로 나타났습니다. .doc 파일에 대해서는 antiword를 사용해야합니다. 아직도 체크 아웃 odt. 귀하의 회신에 감사드립니다. – darren