XML 문서에서 특정 태그의 텍스트 오프셋을 찾는 데 도움이 필요합니다. 각 레코드에 TEXT 요소가 하나만 포함되어 있지만 ROOT 요소에 여러 레코드가 들어있는 아래 그림과 같은 형식의 데이터 세트가 있습니다. 텍스트에는 일부 텍스트의 주석으로 사용되는 여러 TAG 요소가있을 수 있습니다. 이 주석을 파이썬을 사용하여 태그의 시작과 끝 오프셋을 필요로하는 다른 형식으로 변환해야합니다.Python을 사용하여 XML 문서에서 태그 오프셋을 추출하는 방법 BeautifulSoup
<ROOT>
<RECORD ID="123">
<TEXT>
This is an example text written at <TAG TYPE="DATE">December 29th</TAG> to illustrate the problem.
</TEXT>
</RECORD>
</ROOT>
기본적으로, 나는 다음과 같은 형식으로 형식보다 변환하고 싶습니다 : 내가 BeautifulSoup로 사용하여 시도했지만 태그 오프셋을 추출하는 방법을 찾을 수 없습니다
<ROOT>
<RECORD ID="123">
<TEXT>
This is an example text written at December 29th to illustrate the problem.
</TEXT>
<TAG TYPE="DATE" BEGIN=36 END=49/>
</RECORD>
</ROOT>
. 누구 아이디어?
도움 주시면 감사하겠습니다.
/야콥
lxml.etree으로
왜 이것을 다운 그레이드 했습니까? – ShreevatsaR