Làm cách nào để xóa văn bản trùng lặp trong python?

Trong hướng dẫn này, chúng ta sẽ tìm hiểu cách xóa các dòng trùng lặp khỏi tệp văn bản bằng python. Đầu tiên, chương trình sẽ đọc các dòng của một tệp văn bản đầu vào và ghi các dòng đó vào một tệp văn bản đầu ra

Trong khi viết, chúng tôi sẽ liên tục kiểm tra bất kỳ dòng trùng lặp nào trong tệp. Dòng nào viết trước thì bỏ qua dòng đó. Ví dụ, đối với tệp văn bản sau

First Line
Second Line
First Line
First Line
First Line

đầu ra sẽ là

Trước tiên hãy xem xét thuật toán

  1. Đầu tiên, mở tệp đầu vào ở chế độ đọc vì chúng tôi chỉ đọc nội dung của tệp này
  2. Mở tệp đầu ra ở chế độ ghi vì chúng tôi đang ghi nội dung vào tệp này
  3. Đọc từng dòng từ tệp đầu vào và kiểm tra xem có dòng nào tương tự như dòng này được ghi vào tệp đầu ra không
  4. Nếu không, hãy ghi dòng này vào tệp đầu ra và lưu giá trị băm của dòng vào một tập hợp. Chúng tôi sẽ kiểm tra giá trị băm của từng dòng thay vì kiểm tra và lưu trữ toàn bộ dòng. Đây là cách tiếp cận hiệu quả về không gian và tốt hơn cho một tệp lớn
  5. Nếu giá trị băm đã được thêm vào tập hợp, hãy bỏ qua dòng đó
  6. Sau khi mọi thứ hoàn tất, tệp đầu ra sẽ chứa tất cả nội dung của tệp đầu vào mà không có bất kỳ dòng trùng lặp nào

Mã nguồn có sẵn ở đây

Làm cách nào để xóa văn bản trùng lặp trong python?

Giới thiệu về tác giả

Aghogho Monorien

Aghogho là một kỹ sư và Quant đầy tham vọng làm việc về các ứng dụng của trí tuệ nhân tạo trong tài chính