구문 분석 및 대소 문자를 구분하는 검색을 지원하는 Java의 HTML 구문 분석기가 있는지 알고 싶습니다. 내가 알아야 할 것은 검색된 구문 및 대소 문자 구분을위한 HTML 페이지의 히트 수입니다.구문 분석 및 대소 문자를 구별하는 HTML 구문 분석기 (Java)
덕분에, 샤르마
구문 분석 및 대소 문자를 구분하는 검색을 지원하는 Java의 HTML 구문 분석기가 있는지 알고 싶습니다. 내가 알아야 할 것은 검색된 구문 및 대소 문자 구분을위한 HTML 페이지의 히트 수입니다.구문 분석 및 대소 문자를 구별하는 HTML 구문 분석기 (Java)
덕분에, 샤르마
그것은 도움이되지 않습니다?
this is <span>cool</span>
하고 텍스트를 볼 필요가 (이전의 HTML 페이지는 문자열 "이 멋지다"로 변환되기 때문에) "멋지다"당신과 같은 마크 업 HTML 페이지가 있다면 그것은 도움이 될 수 있습니다. 카운트하려면 Apache Commons Lang의 StringUtils를 사용할 수 있으며 countMatches이라는 특별한 방법이 있습니다. 모두 같이 작동해야합니다 :
String htmlString = "this is <span>cool</span>";
String noHTMLString = htmlString.replaceAll("\\<.*?\\>", "");
int count = StringUtils.countMatches(noHTMLString, "is cool");
나는 적어도 시도해 볼 것입니다. html을 파싱하는 것보다 소리가 좋은데, 필요한 단어를 찾는 것 ...
제발, 자바 야, 자바 야. –
@Sean 미안하지만 자바가 있어야한다는 것을 알고있다. 특별한 이유가 있을까? – remo
은 이름이기 때문에 두문자어/약어가 아닙니다 (예 : PERL과 반대). –