Làm thế nào để bạn loại bỏ các dòng trùng lặp trong python?

Xác định những bản sao [nếu có] để giữ lại. -


# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
5. Loại bỏ các bản sao ngoại trừ lần xuất hiện đầu tiên. -

# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
6. Loại bỏ các bản sao ngoại trừ lần xuất hiện cuối cùng. - Sai. Bỏ tất cả các bản sao

Bằng cách sử dụng phương pháp


# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
5, bạn có thể xóa các hàng trùng lặp khỏi DataFrame. Sử dụng phương pháp này, bạn có thể loại bỏ các hàng trùng lặp trên nhiều cột hoặc tất cả các cột đã chọn. Trong bài viết này, chúng tôi sẽ giải thích một số cách loại bỏ các hàng trùng lặp khỏi Pandas DataFrame với các ví dụ bằng cách sử dụng các hàm như hàm

# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
6,

# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
7 và hàm lambda với các ví dụ

Có liên quan. Pandas Nhận danh sách tất cả các hàng trùng lặp

1. Ví dụ nhanh về Drop Duplicate Rows

Nếu bạn đang vội, dưới đây là một số ví dụ nhanh về cách loại bỏ các hàng trùng lặp trong DataFrame của gấu trúc


# Below are quick example
# keep first duplicate row
df2 = df.drop_duplicates[]

# Using DataFrame.drop_duplicates[] to keep first duplicate row
df2 = df.drop_duplicates[keep='first']

# keep last duplicate row
df2 = df.drop_duplicates[ keep='last']

# Remove all duplicate rows 
df2 = df.drop_duplicates[keep=False]

# Delete duplicate rows based on specific columns 
df2 = df.drop_duplicates[subset=["Courses", "Fee"], keep=False]

# Drop duplicate rows in place
df.drop_duplicates[inplace=True]

# Using DataFrame.apply[] and lambda function 
df2 = df.apply[lambda x: x.astype[str].str.lower[]].drop_duplicates[subset=['Courses', 'Fee'], keep='first']

2. thả trùng lặp [] Cú pháp và ví dụ

Dưới đây là cú pháp của hàm


# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
6 loại bỏ các hàng trùng lặp khỏi DataFrame của gấu trúc


# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
  • 
    # Syntax of drop_duplicates
    DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
    
    9 – Nhãn cột hoặc chuỗi nhãn. Giá trị mặc định của nó là không. Sau khi chuyển các cột, hãy xem xét việc xác định các hàng trùng lặp
  • 
    import pandas as pd
    import numpy as np
    technologies = {
        'Courses':["Spark","PySpark","Python","pandas","Python","Spark","pandas"],
        'Fee' :[20000,25000,22000,30000,22000,20000,30000],
        'Duration':['30days','40days','35days','50days','35days','30days','50days'],
        'Discount':[1000,2300,1200,2000,1200,1000,2000]
                  }
    df = pd.DataFrame[technologies]
    print[df]
    
    0 – Các giá trị được phép là {'đầu tiên', 'cuối cùng', Sai}, mặc định là 'đầu tiên'
    • 
      import pandas as pd
      import numpy as np
      technologies = {
          'Courses':["Spark","PySpark","Python","pandas","Python","Spark","pandas"],
          'Fee' :[20000,25000,22000,30000,22000,20000,30000],
          'Duration':['30days','40days','35days','50days','35days','30days','50days'],
          'Discount':[1000,2300,1200,2000,1200,1000,2000]
                    }
      df = pd.DataFrame[technologies]
      print[df]
      
      1 – Các hàng trùng lặp ngoại trừ hàng đầu tiên bị loại bỏ
    • 
      import pandas as pd
      import numpy as np
      technologies = {
          'Courses':["Spark","PySpark","Python","pandas","Python","Spark","pandas"],
          'Fee' :[20000,25000,22000,30000,22000,20000,30000],
          'Duration':['30days','40days','35days','50days','35days','30days','50days'],
          'Discount':[1000,2300,1200,2000,1200,1000,2000]
                    }
      df = pd.DataFrame[technologies]
      print[df]
      
      2 – Các hàng trùng lặp ngoại trừ hàng cuối cùng bị loại bỏ
    • 
      import pandas as pd
      import numpy as np
      technologies = {
          'Courses':["Spark","PySpark","Python","pandas","Python","Spark","pandas"],
          'Fee' :[20000,25000,22000,30000,22000,20000,30000],
          'Duration':['30days','40days','35days','50days','35days','30days','50days'],
          'Discount':[1000,2300,1200,2000,1200,1000,2000]
                    }
      df = pd.DataFrame[technologies]
      print[df]
      
      3 – Tất cả các hàng trùng lặp đều bị loại bỏ
  • 
    import pandas as pd
    import numpy as np
    technologies = {
        'Courses':["Spark","PySpark","Python","pandas","Python","Spark","pandas"],
        'Fee' :[20000,25000,22000,30000,22000,20000,30000],
        'Duration':['30days','40days','35days','50days','35days','30days','50days'],
        'Discount':[1000,2300,1200,2000,1200,1000,2000]
                  }
    df = pd.DataFrame[technologies]
    print[df]
    
    4 – Giá trị Boolean. xóa các hàng trùng lặp trên DataFrame hiện tại khi nó là True. Theo mặc định Sai
  • 
    import pandas as pd
    import numpy as np
    technologies = {
        'Courses':["Spark","PySpark","Python","pandas","Python","Spark","pandas"],
        'Fee' :[20000,25000,22000,30000,22000,20000,30000],
        'Duration':['30days','40days','35days','50days','35days','30days','50days'],
        'Discount':[1000,2300,1200,2000,1200,1000,2000]
                  }
    df = pd.DataFrame[technologies]
    print[df]
    
    5 – Giá trị Boolean, theo mặc định là Sai

Bây giờ, hãy tạo một DataFrame với một vài hàng trùng lặp trên các cột. Khung dữ liệu của chúng tôi chứa các tên cột ________ 76, ________ 77, ________ 78 và ________ 79


import pandas as pd
import numpy as np
technologies = {
    'Courses':["Spark","PySpark","Python","pandas","Python","Spark","pandas"],
    'Fee' :[20000,25000,22000,30000,22000,20000,30000],
    'Duration':['30days','40days','35days','50days','35days','30days','50days'],
    'Discount':[1000,2300,1200,2000,1200,1000,2000]
              }
df = pd.DataFrame[technologies]
print[df]

Sản lượng dưới sản lượng


# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
8

3. Pandas thả các hàng trùng lặp

Bạn có thể sử dụng


# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
6 mà không cần bất kỳ đối số nào để loại bỏ các hàng có cùng giá trị trên tất cả các cột. Nó nhận các giá trị mặc định là

# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
81 và

# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
82. Ví dụ dưới đây trả về bốn hàng sau khi xóa các hàng trùng lặp trong DataFrame của chúng tôi


# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
2

Sản lượng dưới sản lượng


# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
3

4. Bỏ các hàng trùng lặp và giữ hàng cuối cùng

Nếu bạn muốn chọn tất cả các hàng trùng lặp và lần xuất hiện cuối cùng của chúng, bạn phải chuyển một đối số giữ là


# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
83. Ví dụ,

# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
84


# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
6

Sản lượng dưới sản lượng


# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
7

5. Xóa tất cả các hàng trùng lặp khỏi Pandas DataFrame

Bạn có thể đặt


# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
85 trong hàm

# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
86 để xóa tất cả các hàng trùng lặp. cho E. x,

# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
87


# Below are quick example
# keep first duplicate row
df2 = df.drop_duplicates[]

# Using DataFrame.drop_duplicates[] to keep first duplicate row
df2 = df.drop_duplicates[keep='first']

# keep last duplicate row
df2 = df.drop_duplicates[ keep='last']

# Remove all duplicate rows 
df2 = df.drop_duplicates[keep=False]

# Delete duplicate rows based on specific columns 
df2 = df.drop_duplicates[subset=["Courses", "Fee"], keep=False]

# Drop duplicate rows in place
df.drop_duplicates[inplace=True]

# Using DataFrame.apply[] and lambda function 
df2 = df.apply[lambda x: x.astype[str].str.lower[]].drop_duplicates[subset=['Courses', 'Fee'], keep='first']
1

Sản lượng dưới sản lượng


# Below are quick example
# keep first duplicate row
df2 = df.drop_duplicates[]

# Using DataFrame.drop_duplicates[] to keep first duplicate row
df2 = df.drop_duplicates[keep='first']

# keep last duplicate row
df2 = df.drop_duplicates[ keep='last']

# Remove all duplicate rows 
df2 = df.drop_duplicates[keep=False]

# Delete duplicate rows based on specific columns 
df2 = df.drop_duplicates[subset=["Courses", "Fee"], keep=False]

# Drop duplicate rows in place
df.drop_duplicates[inplace=True]

# Using DataFrame.apply[] and lambda function 
df2 = df.apply[lambda x: x.astype[str].str.lower[]].drop_duplicates[subset=['Courses', 'Fee'], keep='first']
2

6. Xóa các hàng trùng lặp dựa trên các cột cụ thể

Để xóa các hàng trùng lặp trên cơ sở nhiều cột, hãy chỉ định tất cả các tên cột dưới dạng danh sách. Bạn có thể đặt


# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
85 trong hàm

# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
86 để xóa tất cả các hàng trùng lặp


# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
0

Mang lại đầu ra tương tự như trên

7. Thả các hàng trùng lặp vào vị trí


# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
1

Sản lượng dưới sản lượng


# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
3

8. Xóa các hàng trùng lặp bằng DataFrame. áp dụng [] và Hàm Lambda

Bạn có thể xóa các hàng trùng lặp bằng hàm


# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
7 và

# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
21 để chuyển đổi DataFrame thành chữ thường và sau đó áp dụng chuỗi thấp hơn


# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
3

Mang lại sản lượng tương tự như trên

9. Hoàn thành ví dụ để loại bỏ các hàng trùng lặp trong DataFrame


# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
4

Sự kết luận

Trong bài viết này, bạn đã học cách thả/xóa/xóa các hàng trùng lặp bằng cách sử dụng hàm


# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
5,

# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
7 và

# Syntax of drop_duplicates
DataFrame.drop_duplicates[subset=None, keep='first', inplace=False, ignore_index=False]
21 với các ví dụ

Chủ Đề