python2.7을 사용하여 EDGAR 파일 (.txt 파일로 온라인에서 사용할 수 있음)에서 문서의 텍스트가 아닌 것을 제거하고 싶습니다. 파일이 어떻게 생겼는지의 예는 여기에 있습니다 :EDGAR 파일 구문 분석
이내 프로그램의 첫 번째 부분은 가져옵니다
EDGAR이 파일의 48 페이지에서 시작 자사의 문서 형식 정의를 제공합니다 EDGAR 온라인 데이터베이스의 .txt 파일을 "parseme.txt"라는 로컬 파일로 변환하십시오. 내가 알고 싶은 것은 DTD를 사용하여 .txt 파일을 구문 분석하는 방법입니다. BeautifulSoup와 같은 통조림 파싱 모듈을 사용 하겠지만 EDGAR의 형식은 고유 한 것으로 보입니다. 작업을 완료하기 위해 커다란 정규식을 사용하지 않기를 바랍니다.
import os
filename = 'parseme.txt'
with open(filename) as f:
lines = f.readlines()
내 질문이 Parse SGML with Open Arbitrary Tags in Python 3 및 Use lxml to parse text file with bad header in Python에서 질문에 관련된하지만 내 질문은 python2.7에 관련된 I 별개 믿고 내가 헤더에 관심이 아니에요있다 - 나는의 텍스트 단지 걱정 파일.
여기 파이썬 버전이별로 중요하지 않다고 생각합니다. 링크 된 질문에 대한 답변에서 제공된 아이디어를 시도 했습니까? 정확히 어디서 붙어 있니? – mzjn