2016-09-14 8 views
0

현재 진행중인 특정 이벤트에 대한 특정 API (실시간 스트리밍 API)로 데이터 (텍스트)를 수집 중입니다. 내가받는 데이터는 API에 전달하는 기본 키워드 목록을 기반으로합니다. API는 또한 기본 키워드 외에도 텍스트에서 발생하는 키워드를 수집 한 다음 기본 목록에 추가하여 API가 해당 키워드로 데이터를 검색 할 수 있도록합니다. 일부 새롭게 추가 된 키워드가 이벤트와 관련이 없기 때문에 문제가 발생하는 곳입니다. 나는 텍스트에서 사용되는 모든 키워드를 다 커버 할 수 없기 때문에 기본 목록에서만 데이터 검색을 제한하고 싶지 않습니다.데이터 간의 상관 관계 및 관계를 찾는 방법

내 솔루션 지금까지 시도하고 수행하는 것입니다 각 1000받은 데이터에 대한 포인트 - 이원 상관 계수하지만 올바른 방법과 그것을 수행하는 방법을 잘 모르겠습니다.

누군가가 나에게이 문제에 접근하는 방법에 대한 조언이나 어떤 종류의 해결책을 줄 수 있다면 정말 고맙겠습니다.

답변

2

용어 동시 발생을 사용하여 키워드 모음을 처리 할 수 ​​있으며 기본 목록과의 관련성이 높아야합니다. This이 하나의 예이지만 알고리즘을 크게 개선 할 수 있습니다.

+0

정말 고마워요, 이것은 제가 찾고 있던 것이 었습니다! –

관련 문제