2014-03-27 1 views
1

후행 비교 참고 사항 :같은 HTML 문서를 비교하는 도구가 두 개의 HTML 문서를 여러 무시하고 공백

  • 텍스트 여러 개의 공백이 변환되었습니다. 하나의 공백에
  • 줄 바꿈은
  • 텍스트 후행 공백으로 변환하고 제목 공백은
  • 속성이
  • 속성 값이 후행 공백

을 포함하여, 변화가 없었다 표준 순서에 넣어했다 제거했다 내가 원하는 이유

나는 마코 측정을 목표로하는 Markdown Test Suite을 연구 중이다. 엔진 준수 및 이식성.

우리는 markdown 입력, 예상 HTML 출력을 가지며 생성 된 HTML 출력이 예상 출력과 동일한지를 결정하려고합니다.

문제는 Markdown이 지정되지 않았기 때문에 두 HTML 문자열을 직접 비교할 수 없다는 것입니다.

실제 테스트 코드는 here입니다. 솔루션을 시험해 보려면 run-tests.py#dom_normalize을 수정하십시오.

것들 내가

  • beautifulsoup을 시도했다. 속성을 지정하지만 공백을 잘 처리하지 못합니까?

    함수 formatter 정규식 수정이 효과가있을 수 있지만 노드 내부와 속성을 구분할 수있는 방법이 없습니다.

    이와 같은 Python 유일한 해결책은 이상적입니다.

  • isEqualNode() (nodeVaue 무시) + headless JS 엔진을 무시하므로 작동하지 않습니다. 하나를 찾을 수 없습니다.

더 좋은 방법이 없다면 일부 HTML 구문 분석기에 자체 출력 포멧 프런트 엔드를 작성해야합니다.

답변

관련 문제