텍스트를 섹션 알고리즘으로 그룹화

각 섹션에 설정된 다양한 제한에 따라 주어진 텍스트 문자열을 섹션으로 그룹화하는 작업입니다. "Lorem ipsum dolorem"이라는 문자열 S가 있다고 가정 해 봅시다. 우리는 또한 3 개의 섹션을 가지고 있습니다. 각 섹션에는 섹션에 포함될 수있는 텍스트의 양을 제한 할 수있는 제한 사항이 있습니다. 이러한 제한은 문자 수 또는 단어 수로 지정할 수 있습니다. 예를 들어, 첫 번째 섹션은 최소 5 개의 문자와 최대 10 개의 문자를 가질 수 있습니다. 두 번째 섹션은 최소 한 단어와 최대 5 단어를 가질 수 있으며 각 단어의 길이는 2 ~ 10 자입니다. 세 번째 섹션은 첫 번째 섹션과 동일한 제한을 가질 수 있습니다.텍스트를 섹션 알고리즘으로 그룹화

사용 가능한 모든 텍스트를 사용해야하거나 그룹화 솔루션이 없습니다. 단어를 분리 할 수 없습니다 (그룹화 할 때 단어를 여러 부분으로 분리 할 수 없습니다). 그룹화에서 문장을 함께 사용하면 솔루션이 더 좋으며 다른 모든 것은 동일합니다.

텍스트를 그룹화하는 가장 효율적인 방법은 무엇입니까?

출처

2012-04-05 tabdulla

주어진 텍스트에 대한 제한을 찾으거나 주어진 제한을 구현하려면 무엇을 찾고 계십니까? 안녕? 숙제? – Matthias

주어진 제한 사항을 구현하십시오. 그리고 숙제가 아닙니다. – tabdulla

몇 가지 예를 들면 도움이 될 것입니다. –

만 문자/숫자와 단어를 계산하면, 그것은 정규 표현식에 대한 예이다 :

sed -E -e 's/([a-z]{2,10}) (([a-z]{2,4}){1,2})([a-z]{2,10})/G:\1 G:\2 
G:\4/'

한이 적용되면 : http://en.wikipedia.org/wiki/Regular_expressions

편집

예를 들어,이 다음 사항을 고려 이 'aaa bb bbbb ccccc'로 변경하면 수신자 :

G:aaa G:bb bbbb G:ccccc

출처

2012-04-05 06:04:29 Matthias

나는 그렇게 생각하지 않는다. 각 섹션에는 다양한 단어 또는 문자가있을 수 있으며 일부 솔루션은 다른 섹션보다 더 바람직합니다. 예를 들어, 문장을 그룹화하는 것이 좋으며, 다른 모든 것은 동등합니다. – tabdulla

"각 섹션의 단어 또는 문자 범위"란 무엇을 의미하는지 이해할 수 없습니다. 각 정규 표현식은 범위를 포함 할 수 있습니다. 그렇죠? 그리고 환경 설정에 관해서 : 먼저 일치하지 않는 경우 nices를 테스트하고 두 번째 선택을 사용하십시오. 그러나 awk와 같은 정규식 도구로 수행 할 수 있으며 서로 다른 종류의 일치에 대해 다른 값을 지정할 수 있습니다. – Matthias

작동시킬 수있는 정규식의 예를 들려 줄 수 있습니까? – tabdulla

텍스트를 섹션 알고리즘으로 그룹화

답변

관련 문제