필자는 참고 문헌과 함께 html 파일을 가져와 저자를 제외한 모든 것을 제거하는 작업을 해왔다. html 태그의 문자와 같은 불필요한 데이터를 제거하는 데 어려움을 겪고 있습니다. 나는 전체 태그를 제거하거나 태그 사이의 특정 데이터를 제거 할 수 있기를 원합니다.펄과 패턴 매칭
오른쪽은 지금 여기처럼 내 서브 모습입니다 : 그것이 무엇을하는 모든 태그 문자를 벗겨이다 지금이 순간
sub extractAuthorsIntoArray{
@author_array = split /[<>"\/?!.=\(\)1234567890':]/, $doc;
foreach(@author_array){
print "$_" . "\n";
}
}
하지만 내가 같은 원하지 않는 외부 데이터의 무리 잎 게시 날짜 및 필요하지 않은 기타 데이터를 게시하십시오. 언제든지 "< li>"라고 말하면서 그 문자를 모두 잃어버린 새로운 데이터를 얻을 수 있습니다. 어쨌든, 나는 계속 망치질거야.
Laters.
편집 : 내가 뭘하려는 것은이 같은 것을 가지고있다
:
< 리 값을 = "2"> 아르 템 Chebotko 및 Shiyong 루, < B> "중첩 된 선택 사항 효율적인 가입 SPARQL 중첩 된 선택적 그래프 패턴 평가 "</b>. <> Semantic Web Evolution을위한 프로그레시브 개념 : 응용 및 개발 </i>, Miltiadis Lytras 및 Amit Sheth (정보), ISBN 160566992X, 2010. <br /> <br /> </li> <> Artem Chebotko, Shiyong Lu, Farshad Fotouhi 및 Anthony Aristar, <> "시맨틱 웹을위한 멀티미디어 언어 데이터의 온톨로지 기반 주석"</b>. < ISTN 1599044269, 2006. < br /> < br /> <> i> 시맨틱 웹 기반 정보 시스템 : 최첨단 응용 프로그램 </i>, IGI Global, Amit Sheth 및 Miltiadis Lytras (편집자)/리>이와
그리고 결국 :
아르 템 Chebotko 및 Shiyong 루
HTML 파서를 사용하십시오. – squiguy
샘플 입력 데이터 및 예상 출력? – ysth