2011-10-28 2 views
3

일반적으로 웹 사이트를 크롤링하여 데이터 마이닝에 관심이 있지만 실제로 구현하고 싶은 프로세스에 대해 많은 문서를 찾을 수 없었습니다. 페이지를 파싱하는 방법을 정의하는 기본 규칙 집합을 작성한 다음 실수가있을 때 도구를 교육하는 아이디어에 매우 열중하고 있습니다.자연 언어 처리를 사용하여 웹 사이트 구문 분석

식당 웹 사이트의 메뉴를 구문 분석하고 싶다고합시다. 나는 일반적으로 메뉴 항목 + 가격이 어디에 있는지를 보여주는 일련의 규칙을 작성할 수있는 도구를 만들고 싶습니다. 그런 다음 도구를 실행하여 어떤 메뉴 항목을 올바르게 구문 분석했는지, 어떤 메뉴 항목이 잘못되었는지를 알려줍니다. 그런 다음 도구는 이러한 수정 사항을 "학습"하고 다음에 실행할 때 더 나은 결과를 얻을 수 있습니다.

NLTK 툴킷을 조금 보았습니다.이 문제를 해결하는 가장 좋은 방법은 NLTK와 같은 NLP 도구를 사용하는지 궁금합니다. 누구든지 저를 시작하는 데 도움이되는 책과 (이상적으로) 도서관을 찾기 위해 올바른 방향으로 나를 가르 킬 수 있습니까? NLP는 갈 길입니까? 감사!

답변

2

나는 정확히 "페이지를 구문 분석"무엇을 의미합니까 어떻게 페이지

구문 분석을 정의하는 규칙의 기본 세트를 작성하는 생각에 촉각을 곤두 세우고있어? 페이지에서 문장을 파싱 하시겠습니까? 구조화 된 information extraction을 작성 중입니까?

이 도구는 이러한 수정 사항을 "학습"하고 다음에 실행할 때 더 나은 결과를 얻습니다.

이것은 매우 진보 된 것들 인 active learning의 문제입니다. 기계 학습 툴킷이 필요합니다. 어느 것이 정확히 원하는지에 달려 있습니다. 파스 트리를 만들거나 중요한 정보를 추출합니다. NLTK는 확률 론적 파서를 지원한다고 믿습니다.

+0

답변 해 주셔서 감사합니다. 구조화 된/반 구조화 된 정보를 확실히 추출하려고합니다. 적극적인 학습에 대한 귀하의 링크는 내가 찾고있는 일종의 제안이었습니다. 이 분야에서 배울 점이 많다는 것을 알고 있습니다 ...이 문제 공간 (예 : MLPy)에 Python 라이브러리가있는 것으로 나타났습니다. –

+0

@ Kevination : 나는 또한 [scikit-learn] (http://scikit-learn.org)을 추천 할 수 있는데, 나는 이것을 유지 자 중 하나입니다. 나는 내가 MLPy에 익숙하지 않다는 것을 인정해야한다. 그래서 나는 그 품질에 대해 언급 할 수 없다. 당신이 정말로 원하는 것은 CRF 나 구조화 된 퍼셉트론/SVM과 같은 시퀀스와 트리 모델을 가진 툴킷입니다. 그래서 그것들을 찾으십시오. –