나는 두 (또는) 유용한 조각을 가지고 데이터의 수집을 구문 분석하려고하지만, 여러 가지 방법으로 구성 할 수 있습니다구문 분석 균일 데이터
이V01C01
Vol 1 Chapter 1
Chapter 1 Volume 1 - Alt title
V1.1
etc.
나는 대규모을 사용하지 않으 왜냐하면 어떤 것들이 어떻게 조직 될지에 대한 모든 조합을 예측할 수있는 방법이 없기 때문입니다 (또한 일부는 외부 텍스트를 가질 것입니다). 나는 이것이 완벽 할 수있는 기계 학습의 한 부분이있는 것처럼 느껴지지만, 충분히 경험할 수는 없다.
당신은 모든 조합을 예측할 수있는 방법이 없다고 말하지만, 당신은 그것들을 예측하기를 원합니다. ML은 마법이 아닙니다. –
ML은 마법이 아니지만 사람이 쉽게 해독 할 수있는 데이터입니다. – Alex
좀 더 구체적으로 설명하면 도움이 될 것입니다. 예를 들어, 귀하의 예제에서 챕터와 볼륨 번호를 찾는 것 같습니다. 몇 가지 가정하에 정규 표현식이 적합 할 수 있습니다. 그러나 문제가 더 광범위하다고 가정합니다. 추출해야 할 요소에는 여러 가지 유형이 있거나 많은 건축물 텍스트 등이 있습니다. 이럴 경우, 자세히 설명하십시오. – etov