2010-03-03 4 views
0

내 C# .net 응용 프로그램에 테이블 내용 및 기타 정보가있는 html 파일이 있습니다.Inbuilt Regex 클래스 또는 HTML 파일에서 태그 사이에 텍스트를 추출하는 Parser.How?

내가 정규식 .NET에서의 방법을 바꾸기 나는 HTML 또는 의 파서를 사용해야합니다 일부 columns.Then의 테이블 내용을 구문 분석 할

?

그리고 파서를 사용하는 경우 파서를 어떻게 사용합니까? 파서가 태그 사이에있는 정보를 추출합니까? 그렇다면 어떻게 사용합니까? 가능한 경우 파서를 처음 사용하기 때문에 예제를 보여줍니다.

내가 어떻게 정보를 추출하고자하는 파일 이름을 전달하는 방법으로 다음 방법 정규식 클래스의 교체 를 사용하는 경우?

: html 파일의 테이블에서 정보를 추출하고 싶습니다. 이를 위해 어떻게 html 민첩성 파서를 사용할 수 있습니까? 파서를 사용하기 위해 작성해야하는 코드 유형은 무엇입니까?

답변

4

그냥 an almost identical question에게 물어보고 삭제했습니다. 여기에 내가 전에 준 대답은 :


보십시오 HTML Agility Pack보십시오.

은 여기 example입니다 : 정규식과 관련하여 추가 질문에 대해서는

HtmlDocument doc = new HtmlDocument(); 
doc.Load("file.htm"); 
foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"]) 
{ 
    HtmlAttribute att = link["href"]; 
    att.Value = FixLink(att); 
} 
doc.Save("file.htm"); 

: HTML을 구문 분석 정규식을 사용하지 마십시오. 강력한 솔루션은 아닙니다. 위의 라이브러리는 훨씬 더 나은 작업을 수행 할 수 있습니다.

+1

그러나이 코드는 오류를 나타냅니다. – Harikrishna

+3

함수 'FixLink'가 정의되지 않았으므로 컴파일되지 않습니다. 코드가 어떻게 생겼는지를 보여주는 예일뿐입니다. 코드를 복사하여 프로젝트에 붙여 넣을 수는 없습니다. 또한 정확히 무엇을해야하는지 알려주지 않았으므로이 코드 스 니펫이 사용자가 필요로하는 것과 정확히 일치하지는 않습니다. –

관련 문제