2011-01-20 4 views
0

구문 분석 및 대소 문자를 구분하는 검색을 지원하는 Java의 HTML 구문 분석기가 있는지 알고 싶습니다. 내가 알아야 할 것은 검색된 구문 및 대소 문자 구분을위한 HTML 페이지의 히트 수입니다.구문 분석 및 대소 문자를 구별하는 HTML 구문 분석기 (Java)

덕분에, 샤르마

+0

제발, 자바 야, 자바 야. –

+0

@Sean 미안하지만 자바가 있어야한다는 것을 알고있다. 특별한 이유가 있을까? – remo

+0

은 이름이기 때문에 두문자어/약어가 아닙니다 (예 : PERL과 반대). –

답변

0

그것은 도움이되지 않습니다?

this is <span>cool</span> 

하고 텍스트를 볼 필요가 (이전의 HTML 페이지는 문자열 "이 멋지다"로 변환되기 때문에) "멋지다"당신과 같은 마크 업 HTML 페이지가 있다면 그것은 도움이 될 수 있습니다. 카운트하려면 Apache Commons Lang의 StringUtils를 사용할 수 있으며 countMatches이라는 특별한 방법이 있습니다. 모두 같이 작동해야합니다 :

String htmlString = "this is <span>cool</span>";  
String noHTMLString = htmlString.replaceAll("\\<.*?\\>", ""); 
int count = StringUtils.countMatches(noHTMLString, "is cool"); 

나는 적어도 시도해 볼 것입니다. html을 파싱하는 것보다 소리가 좋은데, 필요한 단어를 찾는 것 ...

1

this을 시도 했습니까?

정규식을 사용하여 텍스트를 검색 할 수 있습니다. 당신이 noHTMLString에 필요한

String noHTMLString = htmlString.replaceAll("\\<.*?\\>", ""); 

지금 count을 : 텍스트, 스트립 html 태그로 HTML 페이지를 취할 경우

+0

내가 읽을 때 나는 페이지 – remo

+0

에 접근 할 수 없다 .... 지금은 업데이트되었다. –