html 파일에서 문자열 부분을 분리해야합니다. 성공할 수 있다고 생각했지만 데이터 구조는 정말로 혼란 스럽습니다. 나는 매우 초보자이므로 정규 표현은 아마도 나쁜 생각 일 것입니다. 나는 쉼표 또는 세미콜론이 일관성이없고 구분 기호로 선택할 수 없다고 덧붙일 수 있습니다. 여기 어쨌든 내가 한 일을 예로 들어서 시작하겠습니다. 구분 기호가 일치한다면 그 변수구분 기호 목록에 루프를 코딩 하시겠습니까?
예 = D1 D2를 몇 가지 물건 몇 가지 물건 몇 가지 물건의 D3의 D4 D5의 몇 가지 물건을 넣어 HTML입니다 가정
, 그 관심 "물건"을 복구 할 수 다음 스크립트 나 :
for url in open("url-repository.csv", "rt").readlines():
variable1 = urllib2.urlopen(url[:-1]).read()
a = re.compile('d1(.*?)\"d2')
b = a.search(vqriable1)
if b:
c = b.group(1)
list_of_d1.append(c)
그러나 구분 기호는 항상 내가 분석 할 수있는 다른 페이지에 같은 않으며, 항상 같은 순서로하지 않습니다.
예 2 = D2 몇 가지 물건의 D3 아무것도 D4 그러므로 나는 당신에게 두 가지를 물어 보곤
몇 가지 물건의 D5.
Delimiters_list = [d1, d2, d3]
1
스크립트가 예를 들어, 모든 가능한 구성을 보이는 것을 확인하는 것이 가능, 나는 HTML 페이지에있는 모든 구분 기호의 목록을 작성한다고 가정 D1 + D2, D2 + D6, DN + 네?2 또는 적어도 첫 번째 용어를 나타내며 스크립트가 만난 목록의 첫 번째 용어에 대한 체인 선택을 중지하게 하시겠습니까?
이것은 매우 어려운 문제입니다. 나는 분명하지 않을 수도 있다는 것을 알고 있습니다.하지만 그것을 조사하고 도우려는 사람들에게 미리 감사드립니다.
csv 파일을 여는 중이므로 csv 모듈을 사용해야합니다. –
답변 해 주셔서 감사합니다. 전체 코드를 게시하지 않았으며 CSV 라이브러리 가져 오기를 참조합니까? 또는이 경우에 적합한 CSV 라이브러리의 일부로? – user1466622
@ user1466622 - 일부 (시도한) 파이썬 코드로 내 대답을 업데이트했습니다. –