문자열 집합을 비교하여 일반적인 하위 문자열을 찾는 방법

문자열 파일 목록을보고 가장 공통적 인 하위 문자열에 대한 보고서를 만드는 스크립트를 만들려고합니다. 예를 들어문자열 집합을 비교하여 일반적인 하위 문자열을 찾는 방법

스크립트가 특정 임계 값 (예 : 5 자) 이상인 문자열 사이의 공통 요소를 알려주고 싶습니다.

이 이상적으로는

는 "안녕하세요, 저는 문자열입니다"모든 파일에서 발생

기능을 내가 잘 알고있어 기술에서이 작업을 수행 할 수있는 경우 - SQL, 자바 스크립트, PHP, 루비 또는 배쉬 매우 행복 오티스 ...

많은 감사,

Jack

이 질문은 밀접하게 관련되어 있으며 많은 관련 답변이 있습니다. http://stackoverflow.com/questions/1410822/how-can-i-detect-common-substrings-in- a-list-of-strings –

이것은 어려운 문제로 Longest common subsequence problem입니다. 여기

는 동적 프로그래밍을 사용하여 알고리즘의 파이썬 구현 : http://www.algorithmist.com/index.php/Longest_Common_Subsequence

내가 어떤 표준 라이브러리 (C, 자바, PHP, 파이썬, 자바 스크립트, 루비 등) 등으로 온다 생각하지 않는다

2011-01-13 16:59:24 scoffey

아, 고마워. 이제 저는 사전 구축 된 구현을 찾을 수있는 이름을 알고 있습니다. http://en.wikibooks.org/wiki/Algorithm_implementation/Strings/Longest_common_substring#PHP –

답변