2012-07-22 3 views
0

저는 C# 프로그래밍에있어 정말 새로운 내용입니다. 나는 너희들에게 도움이되기를 바란다. 제품, 가격, 설명 등 데이터가있는 웹 사이트 (쇼핑 웹 사이트)가 있습니다. 내가하고 싶은 것은 : 웹 사이트에 검색 기능이 있으므로 검색 링크를 쿼리하고 중요한 데이터 (제품 ID, 이름, 가격 및 설명) 만 가져 와서 데이터를 가져오고 싶습니다. 검색을 수행 할 때 페이지가 많아지고 다음 번에 제품을 추가 할 때마다 새 페이지가 표시됩니다. 이러한 작업을 어떻게 자동화 할 수 있습니까?웹 사이트를 쿼리하고 공용 데이터를 검색하십시오.

인터넷을 통해 많이 검색 한 결과 정규 표현식을 사용하여 webclient()을 사용해야한다는 것을 알았습니다. 페이지 콘텐츠 및 검색 결과 페이지에 대한 루프가 필요할 것이라고 생각했습니다. 당신은 어떻게 생각하십니까? Website Example.

거 야

는 측면에서 어떤 노력을 주셔서 감사합니다.

+0

왜 긁어 필요합니까 몰았다? 웹 사이트가 있다면 데이터가 있습니다. 그냥 어디서 저장합니까? –

답변

0

설명하는 것을 스크래핑이라고합니다.

원하는 것은 HtmlAgilityPack과 같은 것을 사용하여 웹 사이트를 만드는 것입니다. 그런 다음 DOM을 사용하고 내부 텍스트를 읽어 관심있는 노드를 찾습니다.

전체 과정은 다소 복잡하지만, 적어도 올바른 방향으로 당신을 보냈습니다. 대부분의 경우 검색 URL은 동일한 형식을 갖는 경향이 있습니다.

http://cdon.se/hemelektronik/advanced-search?manufacturer-id=&title=.&title-matchtype=1&genre-id=&page-size=15&sort-order=142&page=2

당신은 다른 smething으로 '페이지'를 변경할 수 있습니다 당신이 그런 식으로 모든 페이지를 통해 갈 수있는 예를

에 대한 링크에서

.

추가 : 또한 HTML을 구문 분석하기 위해 정규 표현식을 사용하려면 TRY를 사용하지 마십시오. 그것은 하나 개의 특정 사람의 미친 ...

RegEx match open tags except XHTML self-contained tags

+0

'페이지'를 다른 것으로 변경하면 무엇을 의미합니까? –

+0

URL을보십시오. 여러 매개 변수를 전달 중입니다. 그 중 하나는 (이 경우) page = 2입니다. 나머지는 page = 3, page = 4 등을 전달할 수 있습니다. 루프에 넣을 수 있고 지나가는 값을 늘릴 수 있습니다. – Haedrian

관련 문제