2009-06-08 2 views
-5

SAS URL 액세스 방법을 사용하여 웹 페이지를 읽을 때 모든 HTML 태그를 제거하는 가장 편리한 방법은 무엇입니까?SAS URL 액세스 방법에서 HTML을 제거하려면 어떻게합니까?

+1

질문을 좀 더 명확히하려고 시도했습니다. –

+0

당신은 비참하게 실패했습니다. SAS URL 액세스 방법에서 HTML Gobbeltygoodk 을 제거하려고하지 않습니다. SAS URL 액세스 방법으로 웹 페이지를 읽은 결과에서 HTML Gobbeltygook을 제거하려고합니다. 나는 너에게 F + (비참하게 실패했다)를 주어야 할 것이다. –

+0

나는 당신에게 가까운 표를 주어야 할 것이 었습니다. 다음에 조금 더 노력해야합니다. –

답변

4

원하는 작업을 수행해야합니다. <>을 포함하여 <> 사이의 모든 항목을 제거하고 내용 만 남깁니다 (innerHTML이라고도 함).

Data HTMLData; 

filename INDEXIN URL "http://www.zug.com/"; 

input; 

textline = _INFILE_; 

/*-- Clear out the HTML text --*/ 
re1 = prxparse("s/<(.|\n)*?>//"); 
call prxchange(re1, -1, textline); 

run; 
+0

대단히 Warpraptor !! Perl과 같은 아마추어적인 툴을 필요로하지 않는 전문 프로그래밍 환경의 범위 내에서 당신을 우아하고 단순하게 만드는 솔루션을 정말 좋아합니다. HTML Gobbelgook가 제거되면 우리는 다음과 같은 미를 남깁니다 : 광신주의는 목표를 잊었을 때 당신의 노력을 배가시키는 것입니다. 간격을 즐기는 것을 제외하고는 출생과 사망에 대한 치료법이 없습니다. 인간은 자신의 살아있는 인류를 완전히 소유 할 때 세계를 판단하고 타협하지 않는 성실함으로 다른 사람들을 판단 할 때 도덕적으로 자유 롭습니다. –

+5

조, 흡연을 삼가하십시오. – alamar

0

나는 방법론이 페이지에서 HTML을 제거하는 것이 아니라 캡처하려고하는 데이터의 표준 패턴을 식별하는 것이라고 생각합니다. perl/정규 표현식 유형 방법론입니다.

예를 들어 로고 이미지 다음에 너무 많은 문자가 나오는 데이터 나 표가있을 수 있습니다. 데이터 만 보관하도록 스크립트를 작성할 수 있습니다.

일부 html을 게시하고 싶다면 Google에서 해독하는 것이 좋습니다.

+0

전적으로 SAS 시스템 솔루션을 찾고 있습니다. 나는 SAS가 정규 표현식을 지원한다는 것을 알고 있으며, 코드를 원한다. 나는 바퀴를 다시 발명하는 것을 좋아하지 않으므로 직접하지 않아도된다. gobbeltygook HTML은 Gobbelgook HTML로 수행 할 수있는 모든 것일 수 있습니다. 나는 많은 다른 종류의 웹 페이지를 읽고 Gobbeltygook HTML이 아닌 단지 내용을 추출하고 싶다. –

관련 문제