Python trích xuất số điện thoại và địa chỉ email
Tìm hiểu cách loại bỏ ID email và số điện thoại khỏi một URL trang web nhất định bằng Python bằng thư viện yêu cầu Trích xuất/Xoá chi tiết liên hệ từ một trang web theo cách thủ công rất dễ dàng, nhưng nếu có hàng trăm hoặc hàng nghìn URL của trang web thì việc cạo các chi tiết này rất tốn thời gian. Tuy nhiên, bằng cách sử dụng tập lệnh python, tất cả hàng nghìn URL này có thể được loại bỏ trong vòng vài phút Trong hướng dẫn này, bạn sẽ tạo tập lệnh quét số điện thoại và email sao cho khớp với mẫu email và số điện thoại với các biểu thức chính quy trên trang web đã cho. Nếu mẫu khớp thì tất cả email và số điện thoại sẽ bị loại bỏ. Vậy hãy bắt đầu Bước 1. Tạo tập tin python Tạo một tệp python mới với tên email_phone_scrap. py và nhập tất cả các thư viện cần thiết. Làm cho chương trình của bạn trông giống như sau
Bước 2. Tạo biểu thức chính quy cho số điện thoại Trước tiên, bạn cần tạo một biểu thức chính quy để tìm kiếm số điện thoại. Thông thường, số điện thoại được chia thành ba phần, mã vùng, ba chữ số và bốn chữ số có dấu phân cách, ví dụ: 122-456-7890. Các biểu thức chính quy sẽ là Mẫu điện thoại Biểu thức chính quyMã vùng (có thể có hoặc không có)(\d{3}. \(\d{3}\))?Dấu phân cách [- hoặc. ] (có thể có hoặc không có)(\s. -. \. )?3 chữ số đầu tiên(\d{3})Dấu phân cách(\s. -. \. )4 chữ số cuối(\d{4})Phần mở rộng (nếu có)(\s*(ext. x. mở rộng. )\s*(\d{2,5}))?Hãy kết hợp nó lại với nhau để tạo biểu thức chính quy cho số điện thoại
Ghi chú. Ở đó. VERBOSE được sử dụng để viết bình luận trong các biểu thức chính quy Bước 3. Tạo biểu thức chính quy cho ID email Tiếp theo, bạn cần tạo một biểu thức chính quy để khớp với mẫu ID email. Email được chia thành bốn phần là tên người dùng, biểu tượng @, tên miền và dấu chấm bằng một cái gì đó, ví dụ: contact@kushalstudy. com Mẫu email Biểu thức chính quyTên người dùng[a-zA-Z0-9. _%+-]+@ biểu tượng@Tên miền[a-zA-Z0-9. -]+Dấu chấm và một cái gì đó (\. [a-zA-Z]{2,4})Hãy cùng nhau tạo regex cho id email
Bước 4. Đọc URL từ tệp CSV Tạo một tệp CSV mới với tên website_urls. csv và đặt tất cả các URL của trang web vào cột A. Lưu trữ tệp CSV này trong cùng thư mục chứa email_phone_scrap. py đã được lưu Tiếp theo, tạo mã python để đọc URL từ tệp CSV. Thêm mã sau vào email_phone_scrap. py
Bước 5. Tìm tất cả các số điện thoại và email Bây giờ trang web được mở. Sử dụng mã biểu thức chính quy được tạo ở trên để tìm tất cả các số điện thoại và email
Mã nguồn hoàn chỉnh sẽ trông như thế này
Bước 6. Chạy chương trình Để đơn giản, chúng tôi chỉ đặt một URL trong tệp CSV. Khi bạn chạy chương trình này, đầu ra sẽ giống như bên dưới
Phần kết luận Mã này trích xuất số điện thoại và ID email từ URL đã cho. Bạn có thể đặt bất kỳ số lượng URL nào để trích xuất thông tin này. Nếu có sự thay đổi về định dạng của số điện thoại như không có – dấu phân cách thì có thể dễ dàng đạt được. Để đơn giản, đầu ra được in trên bảng điều khiển thay vì lưu trong tệp CSV, nhưng có thể thực hiện dễ dàng để lưu dữ liệu đã loại bỏ trong CSV hoặc bất kỳ loại tệp nào khác Làm cách nào để trích xuất số điện thoại bằng RegEx?Và chúng ta có thể sử dụng Công cụ RegEx trong Octopude để trích xuất nhanh chóng tất cả các số điện thoại. Bước 1. Chạy Octoparse và mở Công cụ RegEx. . (021)1234567 (123) 456 7899 (123). 456. 7899 (123)-456-7899 123-456-7899 123 456 7899 1234567899 0511-4405222 Làm cách nào để trích xuất số từ tệp văn bản trong Python bằng biểu thức chính quy?Python Regex – Lấy danh sách tất cả các số từ chuỗi. Để lấy danh sách tất cả các số trong Chuỗi, sử dụng biểu thức chính quy '[0-9]+' với re. phương thức findall() . [0-9] đại diện cho một biểu thức chính quy để khớp với một chữ số trong chuỗi. |