2012-04-23 5 views
0

나는 자바,Android에서 웹 사이트를 파싱/스크래핑하는 라이브러리?

이 사람이 어떻게 그 2 개를 추출 대해 이동하는 저를 보여줄 수 다음 웹 페이지, 기사 - 본문 및 기사 이미지에서 SRC에서 2 개를 추출하기 위해 노력하고

http://www.ncataggies.com//ViewArticle.dbml?DB_OEM_ID=24500&ATCLID=205417767

+2

"최고"에 대한 질문은 일반적으로 여기에서 잘 작동하지 않습니다 - 교환은 투표를 위해 실제로 설정되지 않았습니다. 또한 한 도서관을 다른 도서관보다 더 잘 판단 할 수있는 기준을 제시하지 않았습니다. – sarnold

+0

Ok. 나는 누군가가 잘 알고있는 도서관을 찾고있을뿐 아니라 그 자료를 추출하는 방법에 대한 힌트를 얻었을 것이다. – user1154644

+0

Jsoup는 잘 작동합니다. – Torious

답변

0

자바 또는 자바 스크립트?

페이지를 만들 때 URL 원본을 열고 class = "article-body"내부에서 텍스트를 가져온 다음 class = "photocopy"안에있는 텍스트를 가져 왔습니다. src = "". 이렇게하면 모든 텍스트와 이미지 원본이 제공됩니다.

페이지를로드하고 기본 문자열 연산을 사용하여 올바른 클래스를 찾은 다음 내용을 추출하십시오.

이 정보가 도움이됩니까? 특정 코드에 대한 도움이 필요한 경우 먼저 시도해보고 보유하고있는 게시물을 게시하면 도움이됩니다.

+0

어떤 이유로 JSoup을 사용하려고 할 때 NoClassDefFoundError가 발생합니다. jar 파일을 확실히 추가했는데, 거기에 무슨 일이 일어나는지 확실하지 않습니다. – user1154644

관련 문제