2017-11-08 1 views
1

중복이 존재하는 곳에서 delete duplicates for Column Ddelete rows adjacent을 원합니다. 나는 간격을 없애고 위의 내용을 덧붙이고 싶다. 나는 이것을 표 아래에 표현했다. 데이터는 행 크기가 계속 변경됩니다. 우리는 VBA를 전통적으로 사용했지만 파이썬을 사용하고 있으며이 부분을 변경해야합니다.인접한 행을 포함하는 열의 중복 제거 및 위의 중복을 추가

어떤 데이터를 수행합니다 https://ibb.co/gwh0Hb

기대/I를 달성하기 위해 노력하고 무엇 :이 삭제되지 않습니다 옆에 https://ibb.co/f08Dnb

다음 중복 옆 그러나 행을 중복을 제거하고 하나 개의 컬럼에 배치하는 경향이 열은 추가되지 않습니다. 코드 아래

은 -

import openpyxl 
wb1 = openpyxl.load_workbook('C:/Users/Documents/dwa.xlsx') 
ws1 = wb1.active # keep naming convention consistent 
wb2 = openpyxl.load_workbook('C:/Users/Documents/123.xlsx') 
ws2 = wb2.active # keep naming convention consistent 
values = [] 
col_e = 6 # easier to remember 
values = set() # no duplicates by default; faster 'in' searching 
for row in ws1.iter_rows(row_offset=1): # if you have a header 
    if row[col_e].value not in values: 
     values.add(row[col_e].value) 
    else: 
     row[col_e].value = '', 
wb2.save('C:/Users/Documents/123.xlsx') 

내가 추가하려고했습니다 -

values.add(row[col_c].value) 잘 다른 열 값 그러나 나는이 어떤 성공을 아직 나처럼.

답변

0

IIUC가 여기 pandas를 이용한 용액이다

enter image description here

출력은 다음과 같이 될 것이다 :

import pandas as pd 
df = pd.read_excel('remove_duplicates.xlsx') 
# Identifying duplicates only by column 'C4' 
# Further details https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop_duplicates.html 
df.drop_duplicates(['C4'],keep='first', inplace=True) 

입력

능가하는 이렇 enter image description here

관련 문제