1

내 질문은 무엇입니까? ❑ 계층 적 또는 트리 패턴을 감지하는 가장 좋은 기술은 무엇입니까? 나는 나에 의해 구현 문법 인식 (I으로 노력하고계층 적 데이터의 패턴 또는 구조 인식

사용자 로그인 메뉴 또는 탐색 메뉴, 또는 콘텐츠 몸, 바닥 글 등 :

나는 예를 들어, HTML 페이지에서 부품을 인식 할 PHP와 HTML 파서 (DOMDocument)에 대한 DOM 파서를 사용하여 HTML 데이터의 의미를 신경 쓰지 않기 때문에 Lex, yacc와 같은 고전적이지 않습니다.

시각적으로 html로 데이터를 표현하는 방식이 다양하기 때문에 문제가 있습니다. 예를 들어, 메뉴는 <ul><li><a href=#>Link1</a><li>Link2....</ul>으로 구현 될 수 있지만 수백 가지 가능성이 있습니다. 그것은 또한 css 이벤트 (onclick, onmousehover)에 따라 다릅니다. 가짜 메뉴에서 실제 메뉴를 인식하는 데는 문제가 있습니다.

나는 신경 훈련을 생각하고 있었지만 모든 예제에서 선형 데이터가 아니라 계층 적 데이터라는 것을 알았습니다. 몇 가지 네트워크를 시도했지만 DOM 트리 요소 간의 관계 정보가 손실된다는 것은 명백합니다. 아니면 더 잘 만들지 모르겠다.

내 패턴 인식 문법은 HTML에서 가능한 "사고"를 허용하지 않거나 인식을 부드럽게하기 때문에 결과가 좋지 않습니다. 너무 엄격합니다 (퍼지는 아닙니다).

¿ 어떤 아이디어가 있습니까?

답변

1

한 가지 가능한 방법은 다양한 (10-20) 서로 다른 정규 표현식 또는 기타 검색 방법의 배열을 갖는 것입니다. 얼마나 많은 정규 표현식이 적합한 지 확인하고 각각의 정확도에 따라 가중치를 비교하여 비교합니다 값으로. 또는 당신이 원한다면 선택할 수있는 완전한 네트워크를 사용할 수 있습니다.

관련 문제