저는 약 350.000 줄의 텍스트가있는 비교적 작은 파일이 많이 있습니다.여러 텍스트 파일을 결합하고 중복 줄을 제거하고 나머지 줄을 특정 길이의 여러 파일로 분할하는 방법은 무엇입니까?
파일 1 :
asdf
wetwert
ddghr
vbnd
...
sdfre
파일 2 : 예를 들어 당신이 파일 2의 3 행을 볼 수 있듯이
erye
yren
asdf
jkdt
...
uory
내가 원하는 파일 1. 라인 1의 중복 여러 파일에서 이러한 중복을 확인하고 제거 할 수있는 프로그램/Notepad ++ 플러그인.
다음 문제는 모든 목록을 1.000.000 라인의 큰 파일로 결합하려고합니다.
- 648563 라인
- 375924 라인
- 487036 라인 내가 그들을이 파일을 초래할 할
:
- 그래서, 예를 들어, 나는이 파일이 1.000.000 라인
- 511.523 라인
그리고 마지막 두 파일은 고유 한 줄로 구성되어야합니다. 어떻게해야합니까? 이를 위해 일부 프로그램을 사용할 수 있습니까? 또는 여러 메모장 ++ 플러그인의 조합? GSplit은 1.536.243의 파일을 1.000.000 및 536.243 줄의 파일로 분할 할 수 있지만 충분하지 않으며 중복을 제거하지 못합니다.
필자 자신의 Notepad ++ 플러그인이나 프로그램을 만들고 싶습니다.하지만 어떻게 시작해야하는지 잘 모릅니다.
미리 감사드립니다.
실제로 파일의 줄 번호입니까? 그렇다면 중복 검사를 위해 무시해야합니다. 출력물에 보존해야합니까? 선들의 순서를 보존해야합니까? – Pharaoh
@Pharaoh 줄 번호는 파일의 일부가 아니며 줄 순서는 중요하지 않습니다. –
모든 중복 항목을 제거 하시겠습니까? 아니면 둘 중 하나를 유지 하시겠습니까? – Toto