다음과 같은 txt 파일이 있습니다. 예를 들어 6 행이 있습니다. 각 원시 문자열 또는 여러 문자열이 있습니다. 예를 들어 첫 번째 행에는 문자열이 하나만 있지만 두 번째 행에는 두 개가 있습니다 (쉼표로 구분됩니다). 예를 분명하게하기 위해 행 수를 입력하십시오.한 df에서 다른 df로 문자열 강조 표시
1 P41182
2 P41152,Q9UQL6
3 P41172
4 Q92793,Q09472,Q9Y6Q9
5 Q15021,TQ9472
6 Q15021,Q9BPX3,Q15003,O95347,Q9NTJ3
다음과 같은 텍스트가 있습니다. 같은 구조. 예를 들어 첫 번째 행은 하나의 문자열을 가지고 있지만 두 번째는 내가 첫 번째 데이터와 유사하다 두 번째 데이터로부터 문자열의 일부의 인덱스를 알고 싶은 두
1 P41182
2 P41152,Q9UYIU
3 P41172
4 Q9IO93,Q9Y6IT
5 P30561
6 Q15021,Q9BPX3,Q15003,O95347,Q9NTJ3
7 HT8971
8 HLI872
있습니다. 다음과 같은 역할이 있습니다.
1 문자열이 첫 번째 txt에 있고 두 번째 txt와 일치하는 경우 색인을 알고 싶지 않습니다. 첫 번째 txt에 두 개 이상의 문자열이 있고 그 중 하나 또는 두 개가 두 번째 txt 파일과 비슷한 경우 그 색인을 알고 싶습니다. 예를 들어 출력은 다음과 같아야합니다.
df3
1 P41182
2 P41152_2_1,Q9UYIU
3 P41172
4 Q9IO93,Q9Y6IT
5 P30561
6 Q15021_5_1_6_1,Q9BPX3_6_2,Q15003_6_3,O95347_6_4,Q9NTJ3_6_5
7 HT8971
8 HLI872
두 번째 데이터의 첫 번째 문자열은 첫 번째 데이터의 문자열 (각 요소의 문자열은 쉼표로 구분됨)과 유사하므로 그대로두면 색인이 필요하지 않습니다.
초 TXT 파일 번째 문자열은 2 행 제 txt 파일에서 해당 행의 첫 번째 문자열 유사 그래서 2_1
초 TXT에서 여섯 문자열 다섯 번째 행과 유사한 얻고 첫 번째 txt의 첫 번째 문자와 첫 번째 txt 파일의 여섯 번째 행과 첫 번째 문자열과 유사하므로 5_1 및 6_1
등을 얻습니다.
나는 길이가 무언가가되어서 마지막 것이 잘되지 않았다고 생각한다. – akrun
예, 실행 해 보겠습니다. 제발 시간 좀주세요. – akrun
한 가지 경우에 하나 이상의 일치 항목이 있음을 발견했습니다. 그런 경우 어떻게해야합니까? – akrun