0
저는 최근에 대형 텍스트 파일로 몇 가지 작업을 해왔습니다. 저는 CSV 형식으로 그들을 |
quotechar으로 변형 시켰 습니다만, 텍스트 파일에서 반복되는 전체 문장이있을 수 있다는 것을 발견했습니다. 문장의 길이는 다양 할 수 있습니다. 내 목표는 CSV 파일에서 중복 된 문장을 제거하는 것입니다. 두 번째 열 중 일부는 반복이다반복되는 문장을 캡쳐하는 정규 표현식
|something irrelevant|,|sentence1|
|something irrelevant|,|sentence2|
|something irrelevant|,|sentence3|
|something irrelevant|,|sentence4|
...
|something irrelevant|,|sentence100,000|
: 명확히하기 위해, 그것은 같이 보입니다. 나는 정규 표현식에 대한 경험이 있지만, 이것을 위해 사용할 수있는 것을 보지 못했다. 정규 표현식이 이것에 접근하는 올바른 방법입니까 아니면 더 좋은 대안이 있습니까? 모든 조언을 많이 주시면 감사하겠습니다.
프로그래밍 언어로 이것을 처리하고 있습니까? 어느 것? 텍스트 편집기에서? 어느 것? 다른 환경에서는? 어느 것? –
응답 해 주셔서 감사합니다! 나는 파이썬 + 숭고한 텍스트 2를 사용하고 있는데, scikit으로 작업하고있다. 방금 CSV를 Excel로 가져 와서 중복을 제거하는 방법을 제안하는 기사를 발견했습니다. 다음에 시도해 보겠습니다. –