Hola. 난 일반 텍스트 또는 HTML 문서 내에서 단어를 테스트하는 메서드를 작성하는 데 실패했습니다. 나는 합리적으로 정규 표현식을 배웠고, C# (더 많은 자바에서부터)에 더 익숙하다. 그냥 '원인Regex vs String.Contains
, 다음
string html = source.ToLower();
string plaintext = Regex.Replace(html, @"<(.|\n)*?>", " "); // remove tags
plaintext = Regex.Replace(plaintext, @"\s+", " "); // remove excess white space
하고, 경우 "C++"를
string tag = "c++";
bool foundAsRegex = Regex.IsMatch(plaintext,@"\b" + Regex.Escape(tag) + @"\b");
bool foundAsContains = plaintext.Contains(tag);
때때로 foundAsRegex가 사실이며 때로는 거짓 발견해야한다. 나의 google-fu는 약하다. 그래서 나는 "도대체"에 관해 많은 것을 다시 얻지 못했다. 모든 아이디어 또는 포인터 환영합니다!
편집 :
내가 이력서에 기술을 일치 찾고 있어요. 예를 들어, 고유 값 "C++".
편집 :
진짜 발췌 아래와 같습니다 :
"... 관리 - C, C++, 펄, 쉘 프로그래밍 ..."
귀하의 정규 표현식으로 돌고
@CanSpice, 나는 포맷팅을 위해 편집하려고했는데 ... 당신이 나를 때렸다. .net 태그도 추가했습니다. – IAbstract
어쩌면 HTML 문서를 파싱하기위한 Html 민첩성 팩을 살펴보십시오. http://htmlagilitypack.codeplex.com/ –
여러분, 아이들이 여기에서 멋진 모습을 보입니다. 때로는 사용자가 나에게 나쁜 html과 평범한 텍스트를주기 때문에 html 태그가 2 차적입니다. – underachiever