다양한 속성을 가진 의류/액세서리 제품 모음 (파이썬 객체로 표시)이 있습니다. 이러한 제품은 외부 API를 쿼리하고 판매자 웹 사이트를 스크랩하여 다양한 속성을 얻는 조합으로 생성됩니다.복잡한 객체의 파이썬 결정 트리 분류
제 목표는 이러한 특성을 사용하여 제품을 바지, 티셔츠, 드레스 등의 카테고리로 정확하게 분류하는 분류 기준을 개발하는 것입니다.
필자는 수동으로 분류 된 무작위로 균일하게 선택된 전체 데이터 세트의 하위 세트 인 교육 및 테스트 데이터 세트를 모두 보유하고 있습니다.
나는 기계 학습을 전문으로하는 전직 대학 동료와 이야기를 나누었으며 의사 결정 트리를 사용하도록 제안했습니다. 그러나 Python의 의사 결정 트리 라이브러리는 텍스트 속성을 기반으로 데이터를 분류하는 데 집중하는 것이 아니라 매우 수치 적으로 집중된 것으로 보입니다.
나는 Scikit Learn과 같은 라이브러리를 알고 있지만 간략한 분석을 통해 일반적으로 내가 필요로하는 것보다 규칙에 대한 논리가 간단하다는 것을 알 수 있습니다.
접근 방식, 라이브러리, 코드 구조 등에 대한 제안은 크게 감사하겠습니다. 그러나이 질문의 주된 초점은인데 가장 적합한 Python 컴퓨터 학습 라이브러리 (있는 경우)가 입니다.
- 이름 (
str
) - 설명 (
str
) - available_sizes (
[str, str...]
) - available_colours ([STR, STR ...]) :
- 가격 (
float
) - url (,653,210)
- CATEGORY_NAME (
str
) - 이미지 (
[str, str...]
- URL을)
제품 특성
에는 다음이 포함제품의 예 :
당신이 사용할 수있는{ 'category': u"Men's Accessories",
'colours': [u'White'],
'description': u'Keep your formal style looking classic with this white short sleeve Oxford shirt with roll up sleeve detailing.',
'ean': u'',
'gender': u'M',
'images': [ u'http://media.topman.com/wcsstore/TopMan/images/catalog/83D21DWHT_large.jpg',
u'http://media.topman.com/wcsstore/TopMan/images/catalog/83D21DWHT_2_large.jpg',
u'http://media.topman.com/wcsstore/TopMan/images/catalog/83D21DWHT_3_large.jpg',
u'http://media.topman.com/wcsstore/TopMan/images/catalog/83D21DWHT_4_large.jpg'],
'last_scraped': datetime.datetime(2014, 11, 1, 7, 13, 28, 943000),
'merchant_id': 2479L,
'merchant_uri': u'http://www.topman.com/en/tmuk/product/white-oxford-short-sleeve-shirt-157702?geoip=noredirect',
'name': u'White Oxford Short Sleeve Shirt',
'price': 26.0,
'sizes': [u'XXS', u'XS', u'S', u'M', u'L', u'XL', u'XXL']}
내가 당신의 목표를 완전히 이해하고 있는지 확신 할 수는 없지만 OpenCV에는 분류 기계가 있습니다. 13 장의 ch13 참조 : http://www.cs.haifa.ac.il/~dkeren/ip/OReilly-LearningOpenCV.pdf In parituclar , 486 페이지의 이진 의사 결정 트리 섹션을 참조하십시오. 유독 한 버섯은 유용한 모형일지도 모른다. egs는 C이지만 코드는 Python에서 쉽게 실행되도록 수정 될 수 있습니다. – Ryan
해당 분류 기준으로 달성하고자하는 것이 무엇인지 간단히 설명해 주시겠습니까? 사용자 입력 범주와 데이터베이스의 실제 제품 간의 매핑을 찾고 있습니까? – tttthomasssss
@tttthassasss 다른 시스템의 사용자가 수동으로 입력 한 외부 API에서 오는 제품 데이터가 있습니다. 분류의 품질은 소름이 끼치므로 제품 속성을 기반으로 올바른 내부 카테고리에 제품을 할당하는 시스템을 개발해야합니다. – Prydie