저는 Processing Sketch에서 HTML 파일을 구문 분석하려고하는 시작 프로그래머입니다. (덧붙여 말하면, Processing을 모른다면 Java로 컴파일되고 같은 정규식 함수를 사용합니다). SimpleML을 사용하여 HTML 파일을 단일 문자열로 올바르게 캡처했습니다. 내가 캡처하기 위해 노력하고있어 데이터는 테이블에서,과 같이 제공 :처리 스케치의 정규식에 대한 도움이 필요하십니까?
<th>Name</th>
<th>John F. Kennedy</th>
<th>Lyndon Johnson</th>
<th>Richard Nixon</th>
등
내가 ("이름을"포기) 배열에 후보자의 이름을 구문 분석합니다.
그래서 내가 먼저 전체 목록을 반환candidates = match(rawString,"<th>.*</th>");
을 시도했다.
그럼 내가 말했다 단지
<th>Name</th>
프로세싱은 문서를 반환
candidates = match(rawString,"<th>.{1,50}</th>");
을 시도 :
그래서 지금은 같은 그룹과 한정사의 다양한 조합을 시도했습니다 :정규 표현식에서 (괄호 세트로 지정) 그룹이있는 경우
, 각 내용이 배열에 반환됩니다. 정규 표현식 일치의 요소 [0]은 일치하는 전체 문자열을 반환하고 일치 그룹은 요소 [1] (첫 번째 그룹은 [1], 두 번째 [2] 등)에서 시작합니다.
candidates = match(rawString,"(<th>.{1,50}</th>)*");
그러나 아무것도 작동하지 않기 때문에, 나는받지 못했습니다 몇 가지 개념적인 부분이 있어야합니다. 이게 쉬운 것 같군, 그렇지?
좋아 방지 정규식 - 및 - HTML 군중 –