이벤트 시퀀스의 데이터베이스에서 공통 패턴을 찾아야합니다. 그래서 나는 해결책을 찾기 위해 the longest common substring problem과 the python implementation을 고려했다.데이터베이스의 공통 패턴
가장 긴 공통 부분 문자열 만 검색하는 것이 아닙니다. 데이터베이스에 자주 나타나는 더 짧은 공통 부분 문자열을 허용합니다.
일부 알고리즘, 구현 방법 또는이 문제에 대한 일반적인 조언을 제안 할 수 있습니까?
저와 함께 일하는 기계 엔지니어는 20 년 이상 (약 8GB 및 5 밀리언 레코드) 구축 된 데이터베이스의 데이터를 찾고 있습니다. 최종 목표는 유지 보수 태스크에 대한 권고자를 작성하는 것입니다 ("이 트럭의 현재 상태에서 이러한 태스크를 수행해야합니다"와 같은). 그래서, 예, Apriori 알고리즘을 고려했으며 이벤트 사이에 흥미로운 연관성을 발견했습니다. 우리의 현재 문제는 단지 비교를 위해 다른 모델을 찾는 것입니다. LCS와 같은 방법을 사용하는 것에 대한 나의 요지는 패턴을 찾기 위해 단지 두 개의 이야기 만 처리하면된다는 것입니다. –