본질적으로 긴 이름 목록과 각 이름과 관련된 임의의 문자 시퀀스 인 특수 텍스트 파일을 사용하고 있습니다. 흥미로운 특정 일치 시퀀스를 추출하려고합니다. 시퀀스는 "STXDXIK"라고 말할 수 있습니다. X는 임의의 문자입니다. 나는 R에 텍스트 파일을 빨간색으로 표시하고 "TEXT"라고 명명했습니다.정규 표현식 (regexpr) 색인과 관련된 텍스트를 추출하는 방법 R
다음 정규 표현식을 사용하여 시퀀스가 포함 된 항목 목록을 분리하여 "ylist"라고합니다.
ylist<- TEXT[grep("ST[A-Z]D[A-Z]IK", TEXT, value=FALSE, perl=FALSE)]
그런 다음 regexpr 함수를 사용하여 관심이있는 시퀀스의 위치를 찾고 "r"이라고합니다.
r<- regexpr("ST[A-Z]D[A-Z]IK", ylist)
이제 문제는이 시퀀스가있는 위치의 인덱스를 시작 위치와 일치 개수와 함께 얻는 것입니다. 그러나 전체 시퀀스를 추출하는 데 관심이 있으며 전체 시퀀스가 무엇인지 중요하기 때문에 "ylist"의 인덱스가 아닙니다. 누구든지 도와 줄 수 있습니까?
나는 R에서 substr과 regmatches 함수를 시도했지만 substr은이 시퀀스와 많은 일치를 많이 갖고 있기 때문에 실용적이지 않은 각 일치에 적용해야한다. regmatches는 작동하지 않거나 ' 나는 잘못된 명령을 입력했기 때문에 그것을 작동시키지 않습니다. 사용
왜'ylist'를 만드나요? 'r - regexpr ("ST [A-z] D [A-z] IK", TEXT)'충분하지 않습니까? – sgibb