2013-01-22 6 views
1

과학 표기법 (그리스어 등)이 포함 된 페이지를 구문 분석하려고했습니다. 이것은 page입니다. 구문 분석 할 표기가 많은 다른 페이지가 있음에 유의하십시오.HTML :: TableExtract를 사용하여 특수 문자를 인식하는 방법

예를 들어는 다음과 같은 HTML을 포함

<td> human Interleukin 1&beta;  </td> 

&beta 인코딩 그리스 알파벳입니다.

그러나 HTML::TableExtract 구문 분석 후가되었다 :

human Interleukin 1\x{3b2} 

는, 즉 1&beta을 maintaning 같이 원래의 HTML 캡처 아래의 코드를 만들 수있는 방법이 있나요.

use HTML::TableExtract; 
use Data::Dumper; 

# Local file for http://www.violinet.org/vaxjo/vaxjo_detail.php?c_vaxjo_id=55 
my $file = "vaxjo_detail.php\?c_vaxjo_id\=50.html"; 

my $te = HTML::TableExtract->new(); 
$te->parse_file($file); 
my ($table) = $te->tables; 
print Dumper $table ; 

답변

3

human Interleukin 1\x{3b2} 

그것은

human Interleukin 1β 

덤퍼 단순히

"human Interleukin 1\x{3b2}" 

어쨌든 문자 펄 문자열로 그를 출력

을 반환 반환하지 않은 당신은 원료를 원하는 경우 HTML이 나타내는 텍스트 대신 s, 나는 생성자에게 keep_html => 1을 전달하는 것이 트릭을 할 것이라고 믿는다.

관련 문제