SAS URL 액세스 방법에서 HTML을 제거하려면 어떻게합니까?

-5

SAS URL 액세스 방법을 사용하여 웹 페이지를 읽을 때 모든 HTML 태그를 제거하는 가장 편리한 방법은 무엇입니까?SAS URL 액세스 방법에서 HTML을 제거하려면 어떻게합니까?

2009-06-08 Joe Whitehurst

질문을 좀 더 명확히하려고 시도했습니다. –

당신은 비참하게 실패했습니다. SAS URL 액세스 방법에서 HTML Gobbeltygoodk 을 제거하려고하지 않습니다. SAS URL 액세스 방법으로 웹 페이지를 읽은 결과에서 HTML Gobbeltygook을 제거하려고합니다. 나는 너에게 F + (비참하게 실패했다)를 주어야 할 것이다. –

나는 당신에게 가까운 표를 주어야 할 것이 었습니다. 다음에 조금 더 노력해야합니다. –

원하는 작업을 수행해야합니다. <>을 포함하여 <> 사이의 모든 항목을 제거하고 내용 만 남깁니다 (innerHTML이라고도 함).

Data HTMLData; 

filename INDEXIN URL "http://www.zug.com/"; 

input; 

textline = _INFILE_; 

/*-- Clear out the HTML text --*/ 
re1 = prxparse("s/<(.|\n)*?>//"); 
call prxchange(re1, -1, textline); 

run;

출처

2009-06-08 23:24:31

대단히 Warpraptor !! Perl과 같은 아마추어적인 툴을 필요로하지 않는 전문 프로그래밍 환경의 범위 내에서 당신을 우아하고 단순하게 만드는 솔루션을 정말 좋아합니다. HTML Gobbelgook가 제거되면 우리는 다음과 같은 미를 남깁니다 : 광신주의는 목표를 잊었을 때 당신의 노력을 배가시키는 것입니다. 간격을 즐기는 것을 제외하고는 출생과 사망에 대한 치료법이 없습니다. 인간은 자신의 살아있는 인류를 완전히 소유 할 때 세계를 판단하고 타협하지 않는 성실함으로 다른 사람들을 판단 할 때 도덕적으로 자유 롭습니다. –

조, 흡연을 삼가하십시오. – alamar

나는 방법론이 페이지에서 HTML을 제거하는 것이 아니라 캡처하려고하는 데이터의 표준 패턴을 식별하는 것이라고 생각합니다. perl/정규 표현식 유형 방법론입니다.

예를 들어 로고 이미지 다음에 너무 많은 문자가 나오는 데이터 나 표가있을 수 있습니다. 데이터 만 보관하도록 스크립트를 작성할 수 있습니다.

일부 html을 게시하고 싶다면 Google에서 해독하는 것이 좋습니다.

출처

2009-06-08 22:28:49 AFHood

전적으로 SAS 시스템 솔루션을 찾고 있습니다. 나는 SAS가 정규 표현식을 지원한다는 것을 알고 있으며, 코드를 원한다. 나는 바퀴를 다시 발명하는 것을 좋아하지 않으므로 직접하지 않아도된다. gobbeltygook HTML은 Gobbelgook HTML로 수행 할 수있는 모든 것일 수 있습니다. 나는 많은 다른 종류의 웹 페이지를 읽고 Gobbeltygook HTML이 아닌 단지 내용을 추출하고 싶다. –

SAS URL 액세스 방법에서 HTML을 제거하려면 어떻게합니까?

답변

관련 문제