HTML 페이지에서 현지화 가능한 콘텐츠 추출

내가 작업중인 프로젝트에서 구현해야하는 기능에 대한 최상의 조언이 필요합니다.HTML 페이지에서 현지화 가능한 콘텐츠 추출

기본적으로 HTML 페이지에서 모든 현지화 가능한 콘텐츠 (즉 모든 문자열)를 추출 할 수 있어야합니다. HTML 파서를 작성하고 작성하고 싶지는 않습니다. 응용 프로그램은 C#으로 작성되었습니다.

아무도이 경험이 없습니까? 아니면 누구든지이 작업을 수행하는 데 사용할 수있는 기존 라이브러리를 권장 할 수 있습니까?

감사합니다.

당신 만의 파서를 쓸 필요는 없습니다. 다행히도 이미 다른 사람이 그렇게했습니다.
HTML 파일을 구문 분석하려면 HTML Agility Pack을 사용할 수 있습니다.

이 경우 다른 DOM처럼 걸을 수있는 문서 객체 모델을 받게됩니다. 이러한 예를 찾아주세요 :

그리고이 질문 :

2011-08-17 10:29:54

덕분에, 나는이 좀 걸립니다. BTW, 위의 HTML Agility Pack에 대한 귀하의 링크는 시만텍 내부에 표시됩니다 ;-) –

@Jimmy C : Yeap, 어떻게 든 실수했습니다. 다행히도 그것은 아무것도 민감하지 않았다 :) –

답변