Xác định những bản sao [nếu có] để giữ lại. -
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
5. Loại bỏ các bản sao ngoại trừ lần xuất hiện đầu tiên. -
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
6. Loại bỏ các bản sao ngoại trừ lần xuất hiện cuối cùng. - Sai. Bỏ tất cả các bản sao Bằng cách sử dụng phương pháp
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
5, bạn có thể xóa các hàng trùng lặp khỏi DataFrame. Sử dụng phương pháp này, bạn có thể loại bỏ các hàng trùng lặp trên nhiều cột hoặc tất cả các cột đã chọn. Trong bài viết này, chúng tôi sẽ giải thích một số cách loại bỏ các hàng trùng lặp khỏi Pandas DataFrame với các ví dụ bằng cách sử dụng các hàm như hàm
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
6,
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
7 và hàm lambda với các ví dụCó liên quan. Pandas Nhận danh sách tất cả các hàng trùng lặp
1. Ví dụ nhanh về Drop Duplicate Rows
Nếu bạn đang vội, dưới đây là một số ví dụ nhanh về cách loại bỏ các hàng trùng lặp trong DataFrame của gấu trúc
# Below are quick example
# keep first duplicate row
df2 = df.drop_duplicates[]
# Using DataFrame.drop_duplicates[] to keep first duplicate row
df2 = df.drop_duplicates[keep='first']
# keep last duplicate row
df2 = df.drop_duplicates[ keep='last']
# Remove all duplicate rows
df2 = df.drop_duplicates[keep=False]
# Delete duplicate rows based on specific columns
df2 = df.drop_duplicates[subset=["Courses", "Fee"], keep=False]
# Drop duplicate rows in place
df.drop_duplicates[inplace=True]
# Using DataFrame.apply[] and lambda function
df2 = df.apply[lambda x: x.astype[str].str.lower[]].drop_duplicates[subset=['Courses', 'Fee'], keep='first']
2. thả trùng lặp [] Cú pháp và ví dụ
Dưới đây là cú pháp của hàm
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
6 loại bỏ các hàng trùng lặp khỏi DataFrame của gấu trúc
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
9 – Nhãn cột hoặc chuỗi nhãn. Giá trị mặc định của nó là không. Sau khi chuyển các cột, hãy xem xét việc xác định các hàng trùng lặp# Syntax of drop_duplicates DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
0 – Các giá trị được phép là {'đầu tiên', 'cuối cùng', Sai}, mặc định là 'đầu tiên'import pandas as pd import numpy as np technologies = { 'Courses':["Spark","PySpark","Python","pandas","Python","Spark","pandas"], 'Fee' :[20000,25000,22000,30000,22000,20000,30000], 'Duration':['30days','40days','35days','50days','35days','30days','50days'], 'Discount':[1000,2300,1200,2000,1200,1000,2000] } df = pd.DataFrame[technologies] print[df]
1 – Các hàng trùng lặp ngoại trừ hàng đầu tiên bị loại bỏimport pandas as pd import numpy as np technologies = { 'Courses':["Spark","PySpark","Python","pandas","Python","Spark","pandas"], 'Fee' :[20000,25000,22000,30000,22000,20000,30000], 'Duration':['30days','40days','35days','50days','35days','30days','50days'], 'Discount':[1000,2300,1200,2000,1200,1000,2000] } df = pd.DataFrame[technologies] print[df]
2 – Các hàng trùng lặp ngoại trừ hàng cuối cùng bị loại bỏimport pandas as pd import numpy as np technologies = { 'Courses':["Spark","PySpark","Python","pandas","Python","Spark","pandas"], 'Fee' :[20000,25000,22000,30000,22000,20000,30000], 'Duration':['30days','40days','35days','50days','35days','30days','50days'], 'Discount':[1000,2300,1200,2000,1200,1000,2000] } df = pd.DataFrame[technologies] print[df]
3 – Tất cả các hàng trùng lặp đều bị loại bỏimport pandas as pd import numpy as np technologies = { 'Courses':["Spark","PySpark","Python","pandas","Python","Spark","pandas"], 'Fee' :[20000,25000,22000,30000,22000,20000,30000], 'Duration':['30days','40days','35days','50days','35days','30days','50days'], 'Discount':[1000,2300,1200,2000,1200,1000,2000] } df = pd.DataFrame[technologies] print[df]
4 – Giá trị Boolean. xóa các hàng trùng lặp trên DataFrame hiện tại khi nó là True. Theo mặc định Saiimport pandas as pd import numpy as np technologies = { 'Courses':["Spark","PySpark","Python","pandas","Python","Spark","pandas"], 'Fee' :[20000,25000,22000,30000,22000,20000,30000], 'Duration':['30days','40days','35days','50days','35days','30days','50days'], 'Discount':[1000,2300,1200,2000,1200,1000,2000] } df = pd.DataFrame[technologies] print[df]
5 – Giá trị Boolean, theo mặc định là Saiimport pandas as pd import numpy as np technologies = { 'Courses':["Spark","PySpark","Python","pandas","Python","Spark","pandas"], 'Fee' :[20000,25000,22000,30000,22000,20000,30000], 'Duration':['30days','40days','35days','50days','35days','30days','50days'], 'Discount':[1000,2300,1200,2000,1200,1000,2000] } df = pd.DataFrame[technologies] print[df]
Bây giờ, hãy tạo một DataFrame với một vài hàng trùng lặp trên các cột. Khung dữ liệu của chúng tôi chứa các tên cột ________ 76, ________ 77, ________ 78 và ________ 79
import pandas as pd
import numpy as np
technologies = {
'Courses':["Spark","PySpark","Python","pandas","Python","Spark","pandas"],
'Fee' :[20000,25000,22000,30000,22000,20000,30000],
'Duration':['30days','40days','35days','50days','35days','30days','50days'],
'Discount':[1000,2300,1200,2000,1200,1000,2000]
}
df = pd.DataFrame[technologies]
print[df]
Sản lượng dưới sản lượng
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
83. Pandas thả các hàng trùng lặp
Bạn có thể sử dụng
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
6 mà không cần bất kỳ đối số nào để loại bỏ các hàng có cùng giá trị trên tất cả các cột. Nó nhận các giá trị mặc định là
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
81 và
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
82. Ví dụ dưới đây trả về bốn hàng sau khi xóa các hàng trùng lặp trong DataFrame của chúng tôi
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
2Sản lượng dưới sản lượng
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
34. Bỏ các hàng trùng lặp và giữ hàng cuối cùng
Nếu bạn muốn chọn tất cả các hàng trùng lặp và lần xuất hiện cuối cùng của chúng, bạn phải chuyển một đối số giữ là
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
83. Ví dụ,
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
84
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
6Sản lượng dưới sản lượng
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
75. Xóa tất cả các hàng trùng lặp khỏi Pandas DataFrame
Bạn có thể đặt
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
85 trong hàm
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
86 để xóa tất cả các hàng trùng lặp. cho E. x,
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
87
# Below are quick example
# keep first duplicate row
df2 = df.drop_duplicates[]
# Using DataFrame.drop_duplicates[] to keep first duplicate row
df2 = df.drop_duplicates[keep='first']
# keep last duplicate row
df2 = df.drop_duplicates[ keep='last']
# Remove all duplicate rows
df2 = df.drop_duplicates[keep=False]
# Delete duplicate rows based on specific columns
df2 = df.drop_duplicates[subset=["Courses", "Fee"], keep=False]
# Drop duplicate rows in place
df.drop_duplicates[inplace=True]
# Using DataFrame.apply[] and lambda function
df2 = df.apply[lambda x: x.astype[str].str.lower[]].drop_duplicates[subset=['Courses', 'Fee'], keep='first']
1Sản lượng dưới sản lượng
# Below are quick example
# keep first duplicate row
df2 = df.drop_duplicates[]
# Using DataFrame.drop_duplicates[] to keep first duplicate row
df2 = df.drop_duplicates[keep='first']
# keep last duplicate row
df2 = df.drop_duplicates[ keep='last']
# Remove all duplicate rows
df2 = df.drop_duplicates[keep=False]
# Delete duplicate rows based on specific columns
df2 = df.drop_duplicates[subset=["Courses", "Fee"], keep=False]
# Drop duplicate rows in place
df.drop_duplicates[inplace=True]
# Using DataFrame.apply[] and lambda function
df2 = df.apply[lambda x: x.astype[str].str.lower[]].drop_duplicates[subset=['Courses', 'Fee'], keep='first']
26. Xóa các hàng trùng lặp dựa trên các cột cụ thể
Để xóa các hàng trùng lặp trên cơ sở nhiều cột, hãy chỉ định tất cả các tên cột dưới dạng danh sách. Bạn có thể đặt
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
85 trong hàm
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
86 để xóa tất cả các hàng trùng lặp
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
0Mang lại đầu ra tương tự như trên
7. Thả các hàng trùng lặp vào vị trí
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
1Sản lượng dưới sản lượng
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
38. Xóa các hàng trùng lặp bằng DataFrame. áp dụng [] và Hàm Lambda
Bạn có thể xóa các hàng trùng lặp bằng hàm
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
7 và
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
21 để chuyển đổi DataFrame thành chữ thường và sau đó áp dụng chuỗi thấp hơn
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
3Mang lại sản lượng tương tự như trên
9. Hoàn thành ví dụ để loại bỏ các hàng trùng lặp trong DataFrame
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
4Sự kết luận
Trong bài viết này, bạn đã học cách thả/xóa/xóa các hàng trùng lặp bằng cách sử dụng hàm
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
5,
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
7 và
# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
21 với các ví dụ