2009-12-29 7 views
0

나는 조금 붙어 도움이 필요하다. 그래서 이렇게됩니다. 특정 기사에 대한 의견 개수가 의견 모듈에서 비롯되는 사이트가 있습니다. 그것에있는 HTML 태그가 표시됩니다.이 태그는 (<em>1</em>)입니다. 최근에 내 사이트 5를 6으로 업그레이드했습니다. 도와주세요.HTML 태그를 없애는 방법

감사합니다 !!!

+0

에서 HTML을 제거하는 strip_tags() 기능을 사용할 수 있습니다, 그것 명확하지 보인다. –

+0

참조 (1)이 작동하지 않는 것 같습니다 ... – rdmueller

+0

질문을 분명히합니다 .. 생각하기가 어렵습니다 .. 코드 조각을 가장 환영합니다 .. –

답변

0

당신이 <em>1</em> 제거하려는 가정 : \<em([^>]*)\>(\d[^>]*)\</(em[^>]*)\> ->를 제거합니다 숫자를 포함하는 모든 괄호 텍스트.

그리고 이것이 서투른, 어, 나는 어제 정규 표현식을 배웠다.

+1

regexes로 HTML을 파싱하는 중 ... 이것은 지금 민속입니다.하지 마세요! Whatif 홍수가 올 것입니다. 대괄호에 닫는 태그가 아닌 열린 태그가 포함되어 있으면 어떻게 될까요? 숫자가 포함 된 관련없는 괄호가 있으면 어떻게 될까요? *는 0 이상과 일치하므로 숫자가없는 대괄호 안에있는 내용과도 일치합니다. 또한 매칭은 욕심이 많으므로 문서의 시작 부분 근처에 열린 대괄호와 끝 근처의 닫기 대괄호가 일치하고 전체 문서가 이동합니다. 등등. 공포를보기 위해 'regex html'을 검색하십시오. –

+0

나는 보 빈스가 도움을 청하는 것을 보았다. 나는 나무를 파싱하기 위해 lxml을 사용한다. 그러나, 나는 내 마음의 내용에 regexes을 계속할 것입니다. 아마 내 자신의 손해에,하지만 적어도 뭔가를 배울 거 야 XD. – torger

1

당신은 당신이 당신의 문제에 좀 더 빛을 넣어 주실 래요 문자열

관련 문제