2013-07-13 3 views
0

저는 최근에 대형 텍스트 파일로 몇 가지 작업을 해왔습니다. 저는 CSV 형식으로 그들을 | quotechar으로 변형 시켰 습니다만, 텍스트 파일에서 반복되는 전체 문장이있을 수 있다는 것을 발견했습니다. 문장의 길이는 다양 할 수 있습니다. 내 목표는 CSV 파일에서 중복 된 문장을 제거하는 것입니다. 두 번째 열 중 일부는 반복이다반복되는 문장을 캡쳐하는 정규 표현식

|something irrelevant|,|sentence1| 
|something irrelevant|,|sentence2| 
|something irrelevant|,|sentence3| 
|something irrelevant|,|sentence4| 
... 
|something irrelevant|,|sentence100,000| 

: 명확히하기 위해, 그것은 같이 보입니다. 나는 정규 표현식에 대한 경험이 있지만, 이것을 위해 사용할 수있는 것을 보지 못했다. 정규 표현식이 이것에 접근하는 올바른 방법입니까 아니면 더 좋은 대안이 있습니까? 모든 조언을 많이 주시면 감사하겠습니다.

+2

프로그래밍 언어로 이것을 처리하고 있습니까? 어느 것? 텍스트 편집기에서? 어느 것? 다른 환경에서는? 어느 것? –

+0

응답 해 주셔서 감사합니다! 나는 파이썬 + 숭고한 텍스트 2를 사용하고 있는데, scikit으로 작업하고있다. 방금 CSV를 Excel로 가져 와서 중복을 제거하는 방법을 제안하는 기사를 발견했습니다. 다음에 시도해 보겠습니다. –

답변

0

확인. 다음과 같이 내 텍스트 파일에서 중복 된 문장을 제거 :

  1. 이제 문장을 포함하는 엑셀
  2. 를 사용하여 열 Excel에서 "제거 중복"기능에 가져온 CSV 형식
  3. 로 변환
  4. CSV로 내보내기 다시 텍스트이 아마 일을 할 수있는 가장 효율적인 방법은 아니다

-

  • 변환을 제기하지만, 법과 ks이고 매우 쉽게 따라 할 수 있습니다. 나는 복잡한 정규 표현식을 작성하고 파이썬으로 주위를 어지럽히는데 많은 시간을 낭비했다. 그래서 이것은 누군가가 시간을 절약 할 수 있기를 희망한다.