2011-10-22 4 views
3

첫 단락을 추출하려고합니다. 그러나 나는 행운을 찾았다. 아무도 나를 도울 수 있습니까? 여기 텍스트가 있습니다. http://dpaste.com/638776/. 내 텍스트가 동적입니다. 감사합니다.정규식을 사용하여 첫 번째 단락을 추출하십시오.

업데이트 : eTree 모듈을 사용하여 XML 파일을 읽습니다. XML에는 <text></text>이라는 태그가 있습니다. <text></text>is here 사이의 데이터입니다. 인쇄 전용 데이터 인 text tags이 필요합니다. 가능한가? 감사

당신이 태그 사이에 텍스트를 생산할 수, 당신은 단지 모든 경우를 맞는 첫 번째 단락의 패턴을 찾아 낼 필요가있는 경우에, 그래서 기반으로하는 새로운 정보에 따라 개정

'''Zamindar''' ({{te|జమీందార్}}) is a 1965 [[Telugu language|Telugu]] "Thriller" film 
    directed by [[V. Madhusudhan Rao]] and produced by [[Tammareddy Krishna Murthy]] 
    of Ravindra Art Pictures.This is variety role for [[Akkineni Nageswara Rao]] 
    who is more popular with soft Romantic roles.He plays the role of a tough CID Officer  very well.The Movie has some Good songs.This movie has a considerable resemblance with the 1963 [[Cary Grant]] English Movie ''[[Charade (1963 film)|Charade]]''. 
+2

단락의 의미는 무엇입니까? '{{'에서'}} '까지의 모든 것? 그것은 위키 피 디아 템플릿으로 보이므로 아마도 pywikipedia를 사용한다면 더 좋은 방법이 될 것입니다. –

+0

@wiso는 위키피디아 템플릿입니다. 제안에 감사드립니다. –

+3

매우 명확하지 않습니다 ... – heltonbiker

답변

1

... 이 예에서 :

는 점은 줄 바꿈과 일치하는 정규 표현식을 빌드하는 경우
#data - stuff between text tags 
firstparagraph = re.search("}}(.*?)\r*\n\r*\n",data,re.DOTALL) 
print firstparagraph.group(1) 
+0

답장을 보내 주셔서 감사합니다. 그러나 그것은 작동하지 않습니다. –

+0

일부 세부 정보를 게시하는 것이 좋으면 ... 페이스트 인 또는 텍스트 만 파싱하려고하는지 확실하지 않습니다. –

+0

잘 작동합니다. 그러나 마침내 나는 또한 경고 메시지를 받는다. 'print firstparagraph.group (1) AttributeError : 'NoneType'객체에 'group'속성이 없습니다. . 그리고 첫 단락만을 원합니다.'{{Infobox film | 이름 = Bheemli Kabadi Jattu | 이미지 = | 캡션 = | 감독 = [[Tatineni Satya]] | }} 감사합니다. –

1

, 당신은 (루비에서 테스트하지만 난 그대로 파이썬에서 작동 추측)했다. 그것은 니얼 학적으로 답변으로 매우 동일합니다

}}\n(.*?)\n\n 

rubular에 미치는 영향을 참조하십시오.

관련 문제