많은 문장이있는 (실행중인) 텍스트가 있습니다. 나는 마침표, 질문 또는 느낌표로 끝나는 문장을 추출 할 수있는 정규 표현식을 가지고있다. 문장의 끝에는 다음 문장의 시작 부분이 와야합니다 (공백/탭/줄 바꿈 및 대문자 또는 숫자). 나는 데이터에 저장된 문자열을 읽고 정규 표현식을 호출한다.문장과 장 텍스트를 구별하는 정규식
basic_pat = re.compile(r"[(']?\w.+[)']?[?.!](?=\s+[A-Z\d])")
result = basic_pat.findall(data)
약식 사례를 고려하지 않으면이 정규식이 작동하는 것으로 보입니다. 본문에는 마침표로 끝나지 않는 챕터 텍스트가있을 수도 있습니다. 예를 들어 :
는이 여기에 첫 번째 챕터
첫 번째 문장이다. 여기 두 번째 문장이 있습니다. 여기에 세 번째 문장이 있습니다. 여기 는
내 질문이이 문장을 읽는 정규식뿐만 아니라 단지 장 텍스트를 읽는 하나의 정규식이 가능한 경우는 ... 네 번째 전송됩니다. 챕터는 마침표가없는 줄에있는 느슨한 텍스트입니다. 정규 문장은 여러 줄을 포함 할 수 있습니다. 즉, 문장에는 마침표가없는 줄에 텍스트가있을 수도 있습니다. 정규 표현식으로 두 상황 (장 대 문장)을 구별하는 것이 가능합니까?
따옴표는 잊지 마십시오. – tchrist