2010-01-10 2 views
2

어도비 에어에서 html을로드하고 구문 분석하려고합니다. 주된 목적은 제목, 메타 태그 및 링크를 추출하는 것입니다. 나는 HTMLLoader를 시도 해왔다. 그러나 모든 종류의 에러를 얻었는데 주로 javascript의 잡히지 않는 예외이다.어도비 에어에서 html을 구문 분석합니다.

또한 (URLLoader를 사용하여) 직접 html 내용을로드하고 HTMLLoader (loadString (...) 사용)로 텍스트를 푸시했지만 동일한 오류가 발생했습니다. 최후의 수단은 텍스트를 XML로로드 한 다음 E4X 쿼리 또는 xpath를 사용하는 것이 었습니다. 행운을 부리지 않으면 HTML이 제대로 형성되지 않습니다.

내 질문은 :

  1. 간단하고 신뢰성 (공기/액션 스크립트) DOM 구성 요소이 거기에 (내가 페이지를 표시 할 필요가 없습니다 및 헤드리스 (headless) 모드로 할 것)?
  2. xpath/E4X를 사용할 수 있도록 잘 짜여진 xml로 (엉성한) HTML을 변환 할 수있는 라이브러리가 있습니까?
  3. 다른 방법에 대한 의견이 있으십니까?

들으

답변

1

에서 자바 스크립트 전문가 및 jQuery를 창조자 존에 의해 생성

Pure JavaScript/ActionScript HTML Parser

을 HTML 코드를 넣어 // Resig :-)

한 가지 방법은 HTMLtoXML()을 통해 HTML을 실행 한 다음 E4X를 원하는대로 사용하는 것입니다.

1

AFAIK :

  1. 없음 :-(
  2. 없음 :-(
  3. 나는 제목과 메타 태그를 잡을 수있는 가장 쉬운 방법은 몇 가지 정규 표현식을 쓰고 생각합니다. 페이지의 HTML 코드를 문자열로로드 한 다음 필요에 따라 다음과 같이 읽을 수 있습니다.

var str : String = ""; ... 액션 스크립트는 자바 스크립트의 상위 집합 있어야하고, 고맙게도, 거기에 여기에

var pattern:RegExp = /<title>(.+)<\/title>/i; 

trace(pattern.exec(str)); 
관련 문제