2011-09-13 12 views
1

나는 필터링 된 html로 "저장 한"워드 문서를 보유하고 있습니다. html 파일에는 삭제해야하는 외부 링크가 있습니다.html 태그는 삭제하지만 태그 내용은 삭제하지 않습니다.

<h3><a name="OLE_LINK25">My Section Title</a></h3> 

<h3>My Section Title</h3> 

나는이 작업을 수행하는 방법에 대한 어떤 제안으로, 자동화 된 방법으로 예를 들어, 나는 대체 할?

+2

케어를 다운로드 무슨 사용하는 언어? –

답변

1

Jsoup은 "OLE"로 시작하는 이름의 모든 앵커 태그를 제거하는 데 도움이 될 수 있습니다.

Elements anchors = doc.select("a[name^=OLE]"); 
for (Iterator it = anchors.iterator(); it.hasNext();) { 
    Element anchor = it.next(); 
    String text = anchor.text(); 
    Element header = anchor.parent(); 
    header.text(text); 
} 
+0

감사합니다. 내가 필요한 것. – moondog

1

당신은 같은 것을 시도해 볼 수도 있습니다 (안된를 먼저 테스트해야합니다) :

sed -i".backup" 's/<([^ ]+) name="OLE[^"]*">([^<]+)<\/\1>/\2/g' *.html 

는 이것이 할 것입니다 단지 WHATEVER_HERE 모든 * .html 중에서 파일로 <TAG name="OLE....">WHATEVER_HERE</TAG>의 모든 occurrances을 대체합니다. 또한, FILENAME.html.backup

필요한 경우 에서 FILENAME.html 각 *이 .html 파일의 백업을 우리에게 얘기를 sed for Windows

또는 gnu sed

+0

대단히 고마워! 나는 jsoup 방식으로 끝났지 만, 당신의 제안은 너무 좋아 보인다. 매우 감사. – moondog

관련 문제