나는 테러리스트 공격에 관한 여러 기사를 긁어 냈다. 이 기사에서 특정 단락을 추출하고 싶습니다. 기사에서 단락 추출하기 | 정규 표현
이
은 기사의 샘플을 긁어 : 내가 추가 분석을 위해 추출 할 무엇By DAVID D. KIRKPATRICK MARCH 18, 2015
Scenes from Tunisian state television showed confusion outside an art museum and Parliament on Wednesday after gunmen attacked.
CAIRO — Gunmen in military uniforms killed 19 people on Wednesday in a
midday attack on a museum in downtown Tunis, dealing a new blow to the tourist industry
that is vital to Tunisia as it struggles to consolidate the only transition to democracy
after the Arab Spring revolts.
Tunisian officials had initially said that the attackers took 10
hostages and killed nine people, including seven foreign visitors and two Tunisians.
가,에서,이 예에서, 이동 텍스트입니다 : "카이로 -"처음 fullstop에. 내가 생각 해낸
This is the regular expression
:이 정규 표현식으로([A-Z]+(?:\W+\w+)?)\s*—[\s\S]+\.\s
나는 단락의 시작 지점을 추출하지만, 나는 그것의 나머지 부분을 추출하지 않습니다.
정규 표현식이 원하는 것보다 더 많거나 적게 추출 되었습니까? (나의 의심은 당신이 게으른 [수량 화기] (http://www.regular-expressions.info/repeat.html)를 사용하지 않았기 때문에 너무 많이 추출한다는 것입니다. –
네 말이 맞아. 나는 대문자로 된 단어와 사인 뒤에 시작하는 첫 단락만을 extrac하려고 노력하고있다. 전체 데이터 세트에 적용 할 때 너무 많이 추출합니다. –
혼란 스럽습니다 - "첫 번째 전체 중지"로 지정하십시오. 그리고 그것이 당신이 얻는 것입니다. 네가 원하는게 뭐지? – ClasG