HTML 문서를 구문 분석하고 반복 할 수있는 특정 div 블록을 추출합니다.Java + RegEx를 사용하여 HTML에서 특정 div를 추출합니다.
블록의 첫 번째 항목을 추출 할 수 있었지만 다음 단계를 수행하는 방법을 파악할 수 없습니다.
이 지금까지 내 코드는 다음과 같습니다
내가 구문 분석있어 문서 클래스 MY-CLASS 개 이상의 사업부 블록을 가지고 String inputStr = HTTPGetter.get("http://someurl");
String patternStr ="<div class=\"MY-CLASS\">(.*?)</div>";
// Compile and use regular expression
Pattern pattern = Pattern.compile(patternStr);
Matcher matcher = pattern.matcher(inputStr);
boolean matchFound = matcher.find();
if (matchFound) {
// Get all groups for this match
for (int i=0; i<=matcher.groupCount(); i++) {
String groupStr = matcher.group(i);
System.out.println("Group found:\n"+groupStr);
}
} else {
System.out.println("Not found");
}
. 나는 그들 모두를 얻고 싶다.
어떻게하면됩니까?
문서가 XHTML 인 경우에만 작동합니다. –
또한 많은 HTML 파서가 있습니다 : http://stackoverflow.com/search?q=java+html+parser –