2011-08-17 6 views
0

내가 작업중인 프로젝트에서 구현해야하는 기능에 대한 최상의 조언이 필요합니다.HTML 페이지에서 현지화 가능한 콘텐츠 추출

기본적으로 HTML 페이지에서 모든 현지화 가능한 콘텐츠 (즉 모든 문자열)를 추출 할 수 있어야합니다. HTML 파서를 작성하고 작성하고 싶지는 않습니다. 응용 프로그램은 C#으로 작성되었습니다.

아무도이 경험이 없습니까? 아니면 누구든지이 작업을 수행하는 데 사용할 수있는 기존 라이브러리를 권장 할 수 있습니까?

감사합니다.

답변

1

당신 만의 파서를 쓸 필요는 없습니다. 다행히도 이미 다른 사람이 그렇게했습니다.
HTML 파일을 구문 분석하려면 HTML Agility Pack을 사용할 수 있습니다.

이 경우 다른 DOM처럼 걸을 수있는 문서 객체 모델을 받게됩니다. 이러한 예를 찾아주세요 :

http://www.4guysfromrolla.com/articles/011211-1.aspx
http://htmlagilitypack.codeplex.com/wikipage?title=Examples&referringTitle=Home

그리고이 질문 :

How to use HTML Agility pack

+0

덕분에, 나는이 좀 걸립니다. BTW, 위의 HTML Agility Pack에 대한 귀하의 링크는 시만텍 내부에 표시됩니다 ;-) –

+0

@Jimmy C : Yeap, 어떻게 든 실수했습니다. 다행히도 그것은 아무것도 민감하지 않았다 :) –

관련 문제