사용자 ID와 IP 주소가있는 큰 로그 파일이 있습니다. 특정 IP가 얼마나 많은 사용자 ID에 로그인했는지 확인하는 가장 좋은 방법을 결정하려고합니다.여러 열을 기준으로 계산
처음에는 명령 줄에서 cut, sort 및 uniq를 통해이 작업을 수행 할 수 있다고 생각했지만 원하는 출력을 얻지 못했습니다. 파이썬 또는 bash 솔루션이 이상적입니다.
eric - 1.1.1.1, 2.2.2.2, 4.4.4.4
brian - 1.1.1.1
jeff - 1.1.1.1, 3.3.3.3
bob - 3.3.3.3
peter - 4.4.4.4
뿐만 아니라 :
1.1.1.1 - eric, brian, jeff
2.2.2.2 - eric
3.3.3.3 - bob, jeff
4.4.4.4 - peter
나는 이러한 유형의 정보를 표시하도록 출력을 싶습니다
eric 1.1.1.1
eric 1.1.1.1
brian 1.1.1.1
jeff 1.1.1.1
eric 2.2.2.2
bob 3.3.3.3
jeff 3.3.3.3
eric 1.1.1.1
eric 1.1.1.1
eric 4.4.4.4
peter 4.4.4.4
: 아래
파일의 예입니다 그것이 성숙함에 따라, 배제 IP를위한 변수를 만들어야 할 것입니다. 1.1.1.1이 NAT이고 신뢰할 수 있기 때문에 우리는 i를 무시할 수 있다고 말할 수 있습니다. 여러 사용자가 그것으로부터 올 것입니다.올바른 방향으로 밀어 올리는 것이 좋습니다.
음, 파일을'pandas.DataFrame'에로드 한 다음 이름 열'grouby()'에로드하고 마지막으로 각 그룹의 고유 값을 가져옵니다. – Jakub
일부 권장 사항의 전체 스크립트를 원하십니까? – timotree
입력이 그대로이거나 튜플이나 목록 등을 사용할 수 있습니까? – OldBunny2800