저는 신문의 원본을 원시 텍스트 파일로 가지고 있으며, 나는 그것들에서 사설을 끌어낼 수 있기를 바랍니다. 사설의 대부분은 "대문자"라는 단어의 세 번째 예문 다음에 시작하며, "sfbg"로 끝납니다.regex- CategorizedPlaintextCorpusReader를 사용하여 단어의 n 번째 인스턴스를 찾습니다.
제 아이디어는 python의 정규 표현식을 사용하여 이러한 사설을 추출하는 것입니다. CategorizedPlaintextCorpusReader를 사용하고 있습니다.
CategorizedPlaintextCorpusReader의 메서드 목록을 직접 찾으려고 시도했지만 비어 있습니다.
'(. *? 사설은) {3} (. *?) – sweaver2112
당신이 제발 자세히 설명 할 수 sfbg'? 나는 여전히 프로그래밍에 익숙하지 않은 편이며, 문법이 제대로 작동하지 않는다. –