저는이 작은 조각을 몇 시간 씩 작업 해 왔으며 해결책을 찾지 못했습니다. 간단해야합니다. 이번에는 간단한 코드가 아니라 실제 코드를 게시 할 것입니다. 어떻게 든 실제 코드로 작업 할 예제를 얻을 수 없기 때문입니다.BeautifulSoup없이 파일 구문 분석
내장 모듈을 사용하여이 작업을 수행하려고합니다. bs4를 사용하여 답변을 얻은 경우에도 알고 싶습니다. 그것은 간단한 일이되어야합니다.
두 개의 파일, 이렇게가는 HTML 파일이 있습니다.
<b>Match #139</b></font></td></tr><tr bgcolor="#EEEEEE"><td align="CENTER" width="10%"><font color="Green" face="Tahoma,Arial" size="2"><b>Yes</b></font></td><td nowrap=""> <font face="Tahoma,Arial" size="2"><a href="http://www.bricklink.com/catalogItem.asp?P=3822pb01">3822pb01</a> </font></td><td><font face="Tahoma,Arial" size="2"><b>Door 1 x 3 x 1 Left with 'POLICE' Pattern</b></font><font class="fv"><br><a href="http://www.bricklink.com/catalog.asp">Catalog</a>: <a href="http://www.bricklink.com/catalogTree.asp?itemType=P">Parts</a>: <a href="http://www.bricklink.com/catalogList.asp?catType=P&catID=642">Door, Decorated</a></font></td><td nowrap=""><font class="fv"> </font></td></tr><tr bgcolor="#FFFFFF"><td align="CENTER" width="10%"><font color="Green" face="Tahoma,Arial" size="2"><b>Yes</b></font></td><td nowrap=""> <font face="Tahoma,Arial" size="2"><a href="http://www.bricklink.com/catalogItem.asp?P=3821pb01">3821pb01</a> </font></td><td><font face="Tahoma,Arial" size="2"><b>Door 1 x 3 x 1 Right with 'POLICE' Pattern</b></font><font class="fv"><br><a href="http://www.bricklink.com/catalog.asp">Catalog</a>: <a href="http://www.bricklink.com/catalogTree.asp?itemType=P">Parts</a>: <a href="http://www.bricklink.com/catalogList.asp?catType=P&catID=642">Door, Decorated</a></font></td><td nowrap=""><font class="fv"> </font></td></tr><tr bgcolor="#5E5A80"><td colspan="4"><font face="Tahoma,Arial" size="2" color="#FFFFFF"> <b>Match #140</b></font></td></tr><tr bgcolor="#EEEEEE"><td align="CENTER" width="10%"><font color="Green" face="Tahoma,Arial" size="2"><b>Yes</b></font></td><td nowrap=""> <font face="Tahoma,Arial" size="2"><a href="http://www.bricklink.com/catalogItem.asp?P=3822pb02">3822pb02</a> </font></td><td><font face="Tahoma,Arial" size="2"><b>Door 1 x 3 x 1 Left with Classic Fire Logo Pattern</b></font><font class="fv"><br><a href="http://www.bricklink.com/catalog.asp">Catalog</a>: <a href="http://www.bricklink.com/catalogTree.asp?itemType=P">Parts</a>: <a href="http://www.bricklink.com/catalogList.asp?catType=P&catID=642">Door, Decorated</a></font></td><td nowrap=""><font class="fv"> </font></td></tr><tr bgcolor="#FFFFFF"><td align="CENTER" width="10%"><font color="Green" face="Tahoma,Arial" size="2"><b>Yes</b></font></td><td nowrap=""> <font face="Tahoma,Arial" size="2"><a href="http://www.bricklink.com/catalogItem.asp?P=3821pb02">3821pb02</a> </font></td><td><font face="Tahoma,Arial" size="2"><b>Door 1 x 3 x 1 Right with Classic Fire Logo Pattern</b></font><font class="fv"><br><a href="http://www.bricklink.com/catalog.asp">Catalog</a>: <a href="http://www.bricklink.com/catalogTree.asp?itemType=P">Parts</a>: <a href="http://www.bricklink.com/catalogList.asp?catType=P&catID=642">Door, Decorated</a></font></td><td nowrap=""><font class="fv"> </font></td></tr><tr bgcolor="#5E5A80"><td colspan="4"><font face="Tahoma,Arial" size="2" color="#FFFFFF"> <b>
제발 죽이지 마세요. 예, 단지 한 줄입니다. 코드 편집기에 붙여 넣으면 여러 줄로 볼 수 있습니다. 파일은 더 많은 "일치"로 계속됩니다.
두 가지 일을하고 싶습니다.
첫 번째로 일치 번호를 색인 번호로 사용하는 사전을 만들고 싶습니다. 당신이 경기 후 첫 번째 링크 후에 HTML 보면 따라서, 예를 들어, 다음
matches = {'139' : 'etc', '140' : 'etc'}
그리고 것, 부품 번호가, 예에서 첫 번째 3822pb01입니다. 일반적으로 일치하는 부분에는 2 개의 부품 번호가 있으며,이 2 개의 부품 번호를 사용하여 dict 내부에 튜플을 생성하려고합니다.
matches = {'139' : ['3822pb01', '3821pb01'], '140' : ['3822pb02', 3821pb02]}
지금까지, 나는 부품 번호, 또는 일치 #의 빼내야 년대를하지만, 부품 번호 : 상관 관계가없는 년대와 일치 # 's을 (를) 할 수 있었다.
누군가 내가이 접근에 도움이 될 수 있습니까? - 그것은 현재의 지식에서 조금 벗어납니다. http://pastebin.com/raw.php?i=eWWh4XfM - -
여기에 전체 HTML 파일의 HTML을 사용하여 최적의 서식을
왜하지 BeautifulSoup로하고 싶니? 이것을위한 이상적인 도구처럼 보입니다. –
여기에서 좀 더 많은 컨텍스트를 공유 할 수 있습니까? 이 부분을 테이블에서 뜯어 낸 것 같습니다. –
학사 학위가 너무 많아서 일상 업무를 빨리 처리 할 수있는 몇 가지 간단한 방법을 배우려하고 있습니다. 그러나 나는 언젠가는 배워야하고 조금은 학사 학위를 알고 싶습니다. 그렇게 할 수있는 방법이 있다면, 그걸 듣게되어 기쁩니다. 나는 아직 자신의 문서에 들어가기를 원하지 않고, 누군가 나를 위해 일할 것을 요구하는 것처럼 들리려고하지 않는다. (나는 그것이 어쨌든 내가하고있는 일이라고 생각한다). –