2013-09-05 4 views
2

내가 nutritiondata.com을 기반으로합니다 안드로이드 응용 프로그램을 프로그래밍하기 시작하고 구문 분석 XML,HTML과 자바

문제입니다 .. 그들은 개발자를위한 API가 없다, 그것은 매우 어려운 혼란에 보인다 나, 내 애플 리케이션에 사이트에서 정보를 구문 분석하는 방법을 잘 모르겠습니다. 그래서 여기에 나는/음식 -.... 다른 음식 이름을 대체 할 수

http://nutritiondata.self.com/foods-avocado000000000000000000000.html

: 음식 검색을 사용하여 예를 들어

.. ..는 아보카도 검색의 이해 뭔가 예입니다 ... 00000000000.html

하지만 아보카도의 세부 영양소가 깊어지면 아보카도의 오메가 3와 6 함량과 같은 특정 데이터를 그램이나 단백질에서 추출하는 방법을 모릅니다. "소스 페이지"유용한 데이터를 찾을 수 있지만 어떻게 도대체 나는이 데이터 작업을 해야하는지, 금액을 나타내는 메가 3 및 6 지방 아보카도에.

 <div class="clearer"> 
     <div class="nf1 left" id="nfacts"> 


     <div class="indentation"><!--Indent Nutrients--></div> 

<span class="indented">Total Omega-3 fatty acids</span></div> 

     <div class="nf2 left" style="width:38px;"><span id="NUTRIENT_139"></span></div> 
     <div class="nf3 left" style="width:20px;"><span id="UNIT_NUTRIENT_139"></span> </div> 
     <div class="nf4 left" style="width:31px;"><span id="DV_NUTRIENT_139"></span></div> 

<div class="clearer"> 
     <div class="nf1 left" id="nfacts"> 


     <div class="indentation"><!--Indent Nutrients--></div> 

<span class="indented">Total Omega-6 fatty acids</span></div> 

     <div class="nf2 left" style="width:38px;"><span id="NUTRIENT_140"></span></div> 
     <div class="nf3 left" style="width:20px;"><span id="UNIT_NUTRIENT_140"></span></div> 
     <div class="nf4 left" style="width:31px;"><span id="DV_NUTRIENT_140"></span></div> 

정말, 데이터 또는 웹 사이트의 이러한 유형의 작업 방법의 일 예에 감사 시간 동안, 내 마음의 모두와 주셔서 감사합니다 것입니다/여유와 도움.

+2

사용하는 통합 방법을 '화면 스크래핑'이라고하며 종종 해킹 신뢰할 수없는 기술로 간주됩니다. nutritiondata.com이 웹 사이트 디자인을 변경하면 코드가 쉽게 손상 될 수 있습니다. 자신의 사이트에 연락하여 개발자 API/기타 통합 방법을 요청하는 것이 가장 좋습니다. 그래도 계속 가고 싶다면 tagsoup와 같은 HTML 정규화 라이브러리가 거의 없습니다. XSL과 결합하면 페이지 내부의 다양한 비트와 조각을 스크리닝 할 수 있습니다. 최소한 전체 화면의 오프라인 사본을 다운로드하기 위해 스크래핑을하기로 결정한 경우 (합법적 인 경우) – gerrytan

+0

스크립트를 살펴보십시오. 템플릿 + 아약스를 사용하는 경우 해당 요청을 복사하기 만하면됩니다. –

+0

https://code.google.com/p/java-wikipedia-parser/wiki/Introduction을 확인하십시오. –

답변

0

화면 긁기를 위해 JSOUP을 시도하십시오. http://jsoup.org/ 다른 사람들이 지적했듯이 장기간 신뢰할 수있는 기술은 아닙니다.

관련 문제