데이터를 얻고 Excel 시트로 출력하기 위해 웹 사이트를 크롤링하는 프로그램을 작성했습니다. 이 프로그램은 Microsoft Visual Studio 2010을 사용하여 C#으로 작성되었습니다.잘못된 문자를 제거합니다. Excel 시트
대개의 경우 웹 사이트에서 콘텐츠를 가져 와서 구문 분석하고 데이터를 Excel에 저장하는 데 아무런 문제가 없습니다.
그러나 한 번은 내가 문제를 일으키며, 파일을 엑셀 파일로 출력하는 것을 막는 불법 문자 (예 : ▶
)가있어 프로그램이 충돌합니다. 나는 웹 사이트를 수동으로 방문하여 Ú
과 같은 다른 불법 문자를 발견했습니다.
나는 .Replace()
을 시도했지만 코드에서 해당 문자를 찾지 못하는 것 같습니다.
string htmlContent = getResponse(url); //get full html from given url
string newHtml = htmlContent.Replace("▶", "?").Replace("Ú", "?");
내 질문은 HTML 문자열에서 해당 유형의 모든 문자를 제거하는 방법이 있습니까? (웹 페이지의 html) 아래 오류 메시지가 나타납니다.
Excel에서는 이러한 문자를 허용합니다. –
@JoelCoehoorn 저는이 문자들을 엑셀 시트에 직접 넣었습니다. 아무런 문제가 없습니다. 나는 코드와 프로그램 중단으로 그것을 할 수 없었습니다. 다시 추적하고 이것이 문제의 원인이되는 문자열이며 의심스러운 유일한 문자는 내 예제의 것입니다. – sora0419