2015-01-12 2 views
0

다양한 소스에서 DJ 세트를 가져 와서 출력을 필터링 한 아티스트의 DJ 세트 만 포함하도록 큰 yahoo 파이프 프로젝트를 만들고 있습니다. RSS로 선물하고 선물합니다. 먹이.야후 파이프 : 제목에만있는 고유 한 단어

많은 세트가 동시에 여러 웹 사이트에 게시되지만 제목에는 약간의 변형이 있기 때문에 내 피드에는 고유 필터를 사용 했음에도 종종 중복 된 항목이 있습니다.

그러나 대부분이 세트는 dj 이름으로 시작한다는 사실을 알게되었습니다. 마지막 문자열 만 다릅니다 (국가 이름이 추가되거나 날짜가 다른 형식으로 표시되는 경우가 있음)

첫 번째 단어에만 고유 필터를 사용합니다. 그래서이 2 세트를 추가하는 경우 :

데이브 클라크 - 화이트 노이즈 # 471 - 2014 (전자 판)의 베스트 - 11 월 2015

데이브 클라크 - 화이트 노이즈 471 (2014 년 제일 전기) - 12-JAN-2015

고유 필터는 처음 두 단어를 기준으로 필터 중 하나를 필터링합니다.

첫 번째 2 개의 이름만을 기준으로 필터를 걸면 고유 필터가이 dj 오프 코트의 모든 향후 세트를 차단합니다. 이러한 일이 발생하지 않도록하려면 출판 일을 고려한 수식을 추가하고 싶습니다. 일주일에 한 번씩 dj 당 1 개의 상품 만 원한다고 가정 해 봅시다.

나는 이것이 다소 복잡하다는 것을 알고 있지만 가능할 수 있습니까?

감사합니다.

답변

0

나는 단어를 고려하지 않고 꽤 좋은 결과를 얻을 수 있다고 믿지만, ngrams. 기본적으로 단어를 고려하기보다는 n 문자의 시퀀스를 고려하십시오 (3은 좋은 숫자이지만 테스트할만한 가치가 있습니다).

그래서, "데이브 클라크 - 화이트 노이즈 # 471-2014 (전자 판)의 베스트 - 11 월 - 2015"과 같은 목록이 될 것입니다 :

["Dav", "ave", "ve ", "v C", " Cl", "Cla", ... "-20", "201" ,"015"]와 "데이브 클라크 - - 화이트 노이즈 471 (2014 전기 최고의) 12-JAN-2015 "와 같은 무언가를 줄 것이다 :

["Dav", "ave", "ve ", "v C", " Cl", "Cla", ..., "-20", "201" ,"015"]

각 제목 ngrams이 있으면, 당신은 쉽게 공통점 얼마나 많은 비교할 수 ... 그리고 더 큰, 그들이 같은 제목 일 수있는 가능성.

0

파이프에서 자동화 할 수 있습니까? 나는 처리 할 수있는 1000 개가 넘는 키워드 목록과 입력으로 500 개가 넘는 피드 목록을 보유하고 있습니다.

Ngrams는 정말 멋지지만, 이들을 비교할 수 있도록 이러한 ngrams에 대한 링크 제목을 나눌 수있는 도구가 있으면 멋질 것입니다.

관련 문제