여기에 예제 HTML 파일 인 public link이 있습니다. 파일에서 CAN 및 연례 세금 정보 (아래 이미지의 빨간색으로 강조 표시된 예제)의 각 세트를 추출하고 아래의 데이터 프레임을 구성하고 싶습니다.Julia를 사용하여 HTML 파일에서 표 추출 및 구성
대상 필드
예 DataFrame
| Row | CAN | Crtf_NoCrtf | Tax_Year | Land_Value | Improv_Value | Total_Value | Total_Tax |
|-----+--------------+-------------+----------+------------+--------------+-------------+-----------|
| 1 | 184750010210 | Yes | 2016 | 16720 | 148330 | 165050 | 4432.24 |
| 2 | 184750010210 | Yes | 2015 | 16720 | 128250 | 144970 | 3901.06 |
| 3 | 184750010210 | Yes | 2014 | 16720 | 109740 | 126460 | 3412.63 |
| 4 | 184750010210 | Yes | 2013 | 16720 | 111430 | 128150 | 3474.46 |
| 5 | 184750010210 | Yes | 2012 | 16720 | 99340 | 116060 | 3146.17 |
| 6 | 184750010210 | Yes | 2011 | 16720 | 102350 | 119070 | 3218.80 |
| 7 | 184750010210 | Yes | 2010 | 16720 | 108440 | 125160 | 3369.97 |
| 8 | 184750010210 | Yes | 2009 | 16720 | 113870 | 130590 | 3458.14 |
| 9 | 184750010210 | Yes | 2008 | 16720 | 122390 | 139110 | 3629.85 |
| 10 | 184750010210 | Yes | 2007 | 16720 | 112820 | 129540 | 3302.72 |
| 11 | 184750010210 | Yes | 2006 | 12380 | 112760 | | 3623.12 |
| 12 | 184750010210 | Yes | 2005 | 19800 | 107400 | | 3882.24 |
추가 정보
이 삽입 할 수없는 경우 각 행에 대한 CAN은 괜찮습니다. CAN 번호를 별도로 내보내고 세금 값이 들어있는 데이터 프레임에 연결할 수 있습니다. 나는 파이썬을위한 아름다운 수프를 사용하는 방법을 모색했지만 Python을 사용하는 초심자이며 필자가 작성한 나머지 스크립트는 줄리아에 있으므로 모든 것을 하나의 언어로 유지하는 것을 선호한다.
달성하려는 목표를 달성 할 수있는 방법이 있습니까? Gumbo.jl을 보았지만 자세한 설명서/자습서를 찾을 수 없습니다.
당신이 가지고있는 downvote는 아마도 약간 가혹한 것이지만, 그 질문은 당신이 어떤 문서를 찾는 것 외에는 아무것도 시도하지 않았다는 증거가 없기 때문에 주어진 것 같아요. (그렇습니다. 누구든지 그것을 준 사람은 코멘트를 남겨야했습니다. 설명). 어쩌면 몇 가지를 시도해 본 다음 여기에 코드를 게시하면 더 나은 응답을 얻을 수 있습니다. –
@ColinTBowers라는 시간을내어 주셔서 감사합니다. 정확한 방향으로 올바른 코드 조각을 찾을 수 있는지 시도한 코드를 살펴 보겠습니다. –
https://github.com/bicycle1885/EzXML.jl을 확인하십시오. –