2013-12-12 2 views
2

나는 html 파일이 어떤 값에 액세스를 읽을 필요가 :html 파일을 읽고 구문 분석하는 방법은 무엇입니까?

myHtml = 'toto.html'; 
readFile = fileread(myHtml); 

이제 HTML 파일을 구문 분석, 당신은 HTML을 XML로 변환하고 XPath를 사용할 수 있는지 알 수 있습니까?

+1

나는 자바 기반의 HTML 파서를 사용할 것이고, 자바 코드를 Matlab 커맨드 라인에서 직접 실행할 수있다. http://en.wikipedia.org/wiki/Comparison_of_HTML_parsers – Daniel

+0

당신은 HTML 파일에서 XPATH를 의미합니까? 그렇게하기 위해서는 xmlread를 사용할 수없는 파일을 읽어야합니다 .... – lola

+0

Daniel의 제안을 사용하여 이전 코멘트를 잊어 버렸습니다. – MZimmerman6

답변

1

HTML을 XML로 변환하지 않는 것이 좋습니다. 그들은 서로 다른 형식이며, 당신은 화상을 입기 쉽습니다. HTML 파서가 있으므로 직접 사용할 수 있습니다.

또한 완전성을 위해 HTML을 정규식으로 구문 분석하지 마십시오. Matlab에서 HTML을 파싱하는 것에 대한 답은 정규식을 권장하는 Stack Overflow 질문이 있습니다. 결백 한 새끼 고양이를 호의하고 조정하십시오.

Matlab에는 라이브러리의 일부로 HTML 파서가있는 것처럼 보이지 않습니다.

다행히도 Matlab에서 Java 코드를 쉽게 활용할 수 있습니다!
Java HTML 파서는 공정한 게임입니다. Jsoup 또는 jtidy를보십시오. 약 this question 주위에 찌르십시오.

사실, 그 질문을보고 플러스 Comparison of HTML parsers 위키 피 디아 문서 (감사합니다 @ 대니얼 R!) HTMLCleaner 또는 Jtidy HTML을 XML로 정리할 수 있습니다. 다시 말하지만, 나는 신경 쓰지 않고 단순히 HTML을 직접 파싱 할 것이다.

+0

왜 HTML이 XML의 하위 집합이 아니더라도 XPath가 훌륭하다고 말합니까? –

+0

Xpath가 완전히 올바른 도구이기 때문에 ... XML 파일을 다루는 경우 –

+0

자신이 모순됩니다. 신경 쓰지 마. –

관련 문제