0

나는 두 (또는) 유용한 조각을 가지고 데이터의 수집을 구문 분석하려고하지만, 여러 가지 방법으로 구성 할 수 있습니다구문 분석 균일 데이터

V01C01 
Vol 1 Chapter 1 
Chapter 1 Volume 1 - Alt title 
V1.1 
etc. 

나는 대규모을 사용하지 않으 왜냐하면 어떤 것들이 어떻게 조직 될지에 대한 모든 조합을 예측할 수있는 방법이 없기 때문입니다 (또한 일부는 외부 텍스트를 가질 것입니다). 나는 이것이 완벽 할 수있는 기계 학습의 한 부분이있는 것처럼 느껴지지만, 충분히 경험할 수는 없다.

+0

당신은 모든 조합을 예측할 수있는 방법이 없다고 말하지만, 당신은 그것들을 예측하기를 원합니다. ML은 마법이 아닙니다. –

+0

ML은 마법이 아니지만 사람이 쉽게 해독 할 수있는 데이터입니다. – Alex

+0

좀 더 구체적으로 설명하면 도움이 될 것입니다. 예를 들어, 귀하의 예제에서 챕터와 볼륨 번호를 찾는 것 같습니다. 몇 가지 가정하에 정규 표현식이 적합 할 수 있습니다. 그러나 문제가 더 광범위하다고 가정합니다. 추출해야 할 요소에는 여러 가지 유형이 있거나 많은 건축물 텍스트 등이 있습니다. 이럴 경우, 자세히 설명하십시오. – etov

답변

1

글쎄 흥미로운 문제이며, 두 가지가 있습니다. 으로 시도 할 수 있습니다.

데이터에 레이블이 없다는 가정하에 첫 번째 시도는 k- 평균 (http://en.wikipedia.org/wiki/K-means_clustering)과 같은 클러스터링 알고리즘을 사용하여 각 인스턴스 간의 연결을 확인하는 것입니다. 이 방법으로 문제가 해결되지는 않겠지 만 데이터를 탐색하고 감독 학습 분류기를 훈련 할 수있는 일련의 기능을 찾을 수 있도록 도와줍니다.

의 경우에 데이터에 레이블이 있거나 수동으로 태그를 지정할 수 있습니다. 그렇다면 당신은 더 다루기 쉬운 문제 앞에 서 있습니다. 언뜻보기에 텍스트 나 문서 분류 문제 (이메일을 스팸/NoSpam으로 분류하는 것과 유사)처럼 보일 것입니다.이 경우 순진한 베이 분류는 구현하기 쉬운 알고리즘이므로 문제를 공격하기위한 첫 번째 시도가 될 수 있습니다 합리적으로 좋은 결과를 제공 할 수 있습니다. Naives 베이 즈 분류 (https://www.bionicspirit.com/blog/2012/02/09/howto-build-naive-bayes-classifier.html)에 대해

나는 여기에 몇 가지 가정을 만들어 나는 잘못된 것을 기반으로 할 수 있습니다. 어쩌면 데이터에 수동으로 태그를 지정할 수있는 것처럼 몇 가지 사항을 명확히하면 더 도움이 될 것입니다.