1
과학 표기법 (그리스어 등)이 포함 된 페이지를 구문 분석하려고했습니다. 이것은 page입니다. 구문 분석 할 표기가 많은 다른 페이지가 있음에 유의하십시오.HTML :: TableExtract를 사용하여 특수 문자를 인식하는 방법
예를 들어는 다음과 같은 HTML을 포함
<td> human Interleukin 1β </td>
곳 &beta
인코딩 그리스 알파벳입니다.
그러나 HTML::TableExtract 구문 분석 후가되었다 :
human Interleukin 1\x{3b2}
는, 즉 1&beta
을 maintaning 같이 원래의 HTML 캡처 아래의 코드를 만들 수있는 방법이 있나요.
use HTML::TableExtract;
use Data::Dumper;
# Local file for http://www.violinet.org/vaxjo/vaxjo_detail.php?c_vaxjo_id=55
my $file = "vaxjo_detail.php\?c_vaxjo_id\=50.html";
my $te = HTML::TableExtract->new();
$te->parse_file($file);
my ($table) = $te->tables;
print Dumper $table ;