Bản thân việc quét web không phải là bất hợp pháp. Trên thực tế, việc quét web hoặc thu thập dữ liệu web trước đây được liên kết với các công cụ tìm kiếm nổi tiếng như Google hoặc Bing. Các công cụ tìm kiếm này thu thập dữ liệu các trang web và lập chỉ mục trang web
Bắt đầu với quá trình quét web yêu cầu sau
Yêu cầu nhập khẩu
1. xlrd
xlrd là module cho phép Python đọc dữ liệu từ file Excel
Cài đặt
cài đặt pip xlrd
2. selen
Selenium WebDriver là một trong những công cụ phổ biến nhất cho Tự động hóa giao diện người dùng web
Cài đặt
cài đặt selen
3. súp đẹp
Beautiful Soup là một thư viện giúp bạn dễ dàng lấy thông tin từ các trang web
Cài đặt
cài đặt pip beautifulsoup4
4. gấu trúc
Pandas là gói Python cung cấp các cấu trúc dữ liệu nhanh, linh hoạt và biểu cảm được thiết kế để làm việc với dữ liệu chuỗi thời gian và dữ liệu có cấu trúc [dạng bảng, đa chiều, có khả năng không đồng nhất] vừa dễ dàng vừa trực quan
Cài đặt
pip cài đặt gấu trúc
5. xlwt
xlwt là thư viện dành cho nhà phát triển sử dụng để tạo tệp bảng tính tương thích với Microsoft Excel phiên bản 95 đến 2003
Cài đặt
cài đặt pip xlwt
Trong các bước sau, chúng tôi đang thực hiện Quét web để tìm nạp thông tin chi tiết của Tổ chứcBước 1. Nhập khẩu nhập khẩu
import xlrdfrom selenium import webdriverfrom bs4 import BeautifulSoupimport pandas as pdimport xlwtfrom xlwt import WorkbookStep 2: Importing the imports
Bước 2. tạo đối tượng cho Sheet Excel
wb1 = Workbook[]
Bước 3. tạo Sheet trong Excel
sheet1 = wb1.add_sheet['Sheet 1']
Bước 4. Các biến cho Cột và Hàng để xử lý vòng lặp
col=0row=0
Bước 5. Biến cho Đường dẫn của Trang tính Excel chứa tập dữ liệu được sử dụng để Cạo
loc = ["C:/Users/Thinksprout Infotech/Desktop/CompReg_31AUGUST2020.xlsx"]
Chúng tôi đang sử dụng trình duyệt Chrome thử nghiệm
Bắt buộc phải có trình duyệt chrome
Mô phỏng các bản phân phối phổ biến bằng Python. Nhà đầu tư theo hướng dữ liệu
Mối quan tâm đến học máy và khoa học dữ liệu đã tăng lên với tốc độ nhanh chóng trong những năm gần đây. Ngày càng có nhiều sinh viên…
www. nhà đầu tư dữ liệu. com
Kiểm tra Phiên bản Chrome của bạn và tải xuống Phiên bản tương thích với phiên bản của bạn
Có thể tải xuống Trình điều khiển trình duyệt web Chrome Test từ
Tải xuống - ChromeDriver - WebDriver cho Chrome
Trình điều khiển web dành cho Chrome
Trình điều khiển web dành cho Chrome Chromedriver. crom. tổ chức
Bước 6. Biến để đặt vị trí trình điều khiển trình duyệt web thử nghiệm
driver = webdriver.Chrome["C:/Users/ Thinksprout Infotech /Desktop/chromedriver_win32/chromedriver"
Bước 7. Đối tượng Workbook để đọc Dataset từ excel
wb = xlrd.open_workbook[loc]sheet = wb.sheet_by_index[0]
Bước 8. duyệt qua Bộ dữ liệu
Tiếp tục Vòng lặp cho đến khi kết thúc
for i in range[sheet.nrows]: cin = sheet.cell_value[i, 0] name = sheet.cell_value[i, 1]
________số 8Bước 9. URL được tìm kiếm trên web
Bước 10. Gửi dữ liệu URL tới trình duyệt Web
driver.get[stuff_in_string]content = driver.page_sourcesoup = BeautifulSoup[content,"html.parser"]
Bước 11. Dữ liệu cho Thẻ trang web thực tế phải được loại bỏ và Dữ liệu phải được tìm nạp
cho e. g
https. // thinksproutinfotech. com
Nếu chúng tôi muốn lấy Tên Thinksprout Infotech từ URL trang web Tổ chức của tôi
Nhấp chuột phải vào Trang web —> nhấp vào kiểm tra
wb1 = Workbook[]
0Bước 12. Xuất dữ liệu sang bảng tính Excel mới
wb1 = Workbook[]
1Bước 13. Đóng trình duyệt Chrome thử nghiệm
wb1 = Workbook[]
2Vòng lặp này sẽ tiếp tục cho đến khi toàn bộ dữ liệu từ tập dữ liệu không được phân tích cú pháp
Phần kết luậnSau mỗi lần thực thi thành công dữ liệu từ tập dữ liệu, Trình duyệt thử nghiệm Chrome sẽ tự khởi động lại để tiếp tục với Giá trị dữ liệu từ dữ liệu
Khi chia sẻ dữ liệu và tìm nạp các giá trị đồng thời, nó sẽ lưu trữ dữ liệu được tìm nạp vào trang tính Excel mới. Việc thực thi đồng thời được thực hiện vì việc lưu trữ dữ liệu trong Tuple, List hoặc Dictionary có thể gây ra Mất dữ liệu do lỗi kết nối internet