Vì vậy, bạn ở đây vì bạn đang muốn chuyển đổi PDF thành văn bản bằng Python. Chà, bạn đang ở đúng nơi vì chúng tôi sẽ chỉ cho bạn hai phương pháp tiện dụng để chuyển đổi PDF thành văn bản Python. Nếu bạn chưa biết, Python là ngôn ngữ lập trình hướng đối tượng được sử dụng để phát triển nguyên mẫu phần mềm ứng dụng web và khoa học dữ liệu. Bây giờ chúng ta hãy tìm hiểu cách bạn có thể chuyển đổi PDF thành văn bản bằng Python
Chuyển PDF sang văn bản bằng Python không hề đơn giản, nhất là với người mới. Ngoài ra, thật khó để chuyển đổi các tệp PDF được quét thành văn bản bằng Python. Nếu bạn đang tìm kiếm một cách đơn giản hơn để chuyển đổi PDF, bao gồm PDF được quét thành văn bản, bạn có thể sử dụng Wondershare PDFelement - PDF Editor. Đây là trình chỉnh sửa PDF dễ sử dụng có thể chuyển đổi PDF sang TXT, Word, Excel, PPT, v.v. , và ngược lại. Với công nghệ OCR, nó có thể trích xuất văn bản và dữ liệu từ hình ảnh PDF. Chuyển đổi hàng loạt được hỗ trợ
Chuyển đổi PDF thành văn bản bằng Python qua Mô-đun pdftotext
Để chuyển PDF sang văn bản bằng Python, bạn cần có các công cụ sau
1. Poppler cho Windows
Đây là một thư viện kết xuất PDF cũng bao gồm tiện ích pdftoppm
2. Mô-đun pdftotext
Nó là một mô-đun Python bao bọc tiện ích để chuyển đổi PDF thành văn bản
Cách cài đặt các công cụ PDF to Text Python cần thiết
Để cài đặt Poppler trên windows, hãy thêm xxx/bin/ vào đường dẫn env sẽ cài đặt Poppler ở vị trí cần thiết. Sau đó, pip cài đặt mô-đun pdftotext chuyển đổi PDF thành văn bản trong khi bạn chạy truy vấn của mình tại Python
Sau khi mô-đun Poppler và pdftotext được cài đặt trên Windows, hãy viết và biên dịch đoạn mã sau để làm cho nó hoạt động
1 nhập pdftotext
2
3 # Tải PDF của bạn
4 với open["Target. pdf", "rb"] dưới dạng f.
5 pdf = pdftotext. PDF[f]
6
7 # Lưu tất cả văn bản vào tệp txt.
8 với open['đầu ra. txt', 'w'] dưới dạng f.
9 f. ghi["\n\n". tham gia[pdf]]
Làm thế nào để mã này hoạt động?
Nhập pdftotext. Với truy vấn này, nó sẽ gọi mô-đun pdftotext để bắt đầu quá trình chuyển đổi
# Tải PDF của bạn. Đoạn mã này sẽ tải tệp PDF của bạn trong trình biên dịch
Mã trên dòng 4 đến 9 sẽ chọn và chuyển đổi tệp PDF thành văn bản và đầu ra sẽ được lưu ở đích đã chọn. Vì vậy, đây là cách bạn chuyển đổi PDF thành Văn bản bằng Python
Chuyển đổi PDF thành văn bản bằng Python qua PyPDF2
Phương pháp này sẽ sử dụng một mô-đun bên ngoài có tên là PyPDF2 để chuyển đổi PDF thành văn bản. Gói PyPDF2 này có thể cho phép bạn chuyển đổi, tách, hợp nhất, cắt các tệp PDF. Để cài đặt PyPDF2, hãy sử dụng dòng lệnh bên dưới
C. \Users\Admin>pip cài đặt PyPDF2
Sau khi mô-đun được cài đặt, bạn có thể chuyển đổi PDF thành văn bản bằng Python bằng cách sử dụng mã sau
# nhập các mô-đun cần thiết
nhập PyPDF2
# tạo đối tượng tệp pdf
pdfFileObj = open['example. pdf', 'rb']
# tạo đối tượng trình đọc pdf
pdfReader = PyPDF2. PdfFileReader[pdfFileObj]
# in số trang trong tệp pdf
print[pdfReader. numPages]
# tạo đối tượng trang
pageObj = pdfReader. getPage[0]
# đang trích xuất văn bản từ trang
print[pageObj. extractText[]]
# đóng đối tượng tệp pdf
pdfFileObj. đóng[]
Ưu điểm và nhược điểm của việc chuyển đổi PDF thành văn bản bằng Python
Trước tiên hãy cùng tìm hiểu ưu điểm của việc chuyển PDF sang văn bản bằng Python
Python là một ngôn ngữ lập trình có thể được sử dụng để làm bất cứ điều gì bạn có thể tưởng tượng. Và khi chuyển đổi định dạng tệp, Python là một công cụ tuyệt vời để làm điều đó bởi vì có sẵn một số mô-đun cho mục đích đó. Với các mô-đun này, rất dễ dàng chuyển đổi PDF sang văn bản, hình ảnh và các định dạng khác
Khi nói về nhược điểm, nhược điểm lớn nhất của việc sử dụng Python là bạn cần học Python trước, điều này sẽ tốn rất nhiều thời gian của bạn. Ngoài ra, nó có các tùy chọn và chức năng rất hạn chế để chuyển đổi tệp PDF được quét thành văn bản và có thể dẫn đến văn bản bị thao túng
Bây giờ, nếu bạn cảm thấy việc chuyển đổi tệp bằng Python sẽ khiến bạn đau đầu, thì chúng tôi có một phương pháp thay thế dành cho bạn, đó là. e. , chuyển đổi PDF thành Văn bản mà không cần Python. Hãy học cách làm điều đó mà không cần Python
Cách chuyển đổi PDF thành văn bản mà không cần Python
Để chuyển đổi PDF thành văn bản, tất cả những gì bạn cần là Wondershare PDFelement - PDF Editor. Nó là một trong những công cụ tốt nhất tại thời điểm này được sử dụng để tạo và chỉnh sửa các tệp PDF. Với nó, bạn có thể thực hiện rất nhiều tác vụ khác nhau bao gồm chuyển đổi định dạng tệp, tạo biểu mẫu và ký điện tử. Hãy khám phá một số tính năng tốt nhất dưới đây
- Tạo PDF - Tệp PDF có thể được tạo dễ dàng như tạo tệp MS word bình thường. Bạn có thể thêm hình ảnh, màu sắc và nhiều thứ khác vào tệp PDF của mình
- Chỉnh sửa PDF - Nhận tệp PDF từ ai đó và cần chỉnh sửa trước khi chuyển tiếp cho người khác?
- Chuyển đổi định dạng tệp - Không chỉ PDF sang văn bản và ngược lại mà bạn còn có thể chuyển đổi từ PDF sang khoảng 300 định dạng khác và ngược lại chỉ với vài cú nhấp chuột
- Tạo biểu mẫu - Bạn có thể tạo các biểu mẫu nâng cao và phức tạp chỉ bằng một cú nhấp chuột. Với tính năng này, bạn cũng có thể chỉnh sửa các biểu mẫu hiện có, cũng như điền vào các biểu mẫu ngay từ PC của mình mà không cần tải xuống và in chúng
- OCR - Với OCR [Nhận dạng ký tự quang học], bạn có thể dễ dàng chuyển đổi các tệp PDF được quét thành định dạng có thể chỉnh sửa và hơn nữa có thể chuyển đổi chúng thành bất kỳ định dạng nào khác. Nghe có vẻ thú vị?
Còn rất nhiều tính năng khác trong PDFelement không thể dễ dàng bỏ qua. Nó có thể dễ dàng vượt qua các phần mềm tương tự khác vì không có phần mềm nào khác có nhiều tính năng được kết hợp. Bây giờ hãy xem hướng dẫn từng bước để chuyển đổi PDF thành Văn bản
Bước 1. Mở tệp PDF
Đầu tiên, khởi chạy PDFelement và mở tệp PDF để chuyển đổi nó. Để mở tệp, nhấp vào nút "Mở tệp…", định vị tệp trong PC của bạn, chọn tệp và nhấp vào nút "Mở"
Bước 2. Chuyển đổi PDF sang văn bản
Bây giờ, hãy nhấp vào "Chuyển đổi" trong thanh menu rồi nhấp vào "Thành văn bản" trong thanh menu phụ
Bước 3. Chọn thư mục đầu ra
Ở bước cuối cùng, chọn thư mục đầu ra hoặc đích nơi tệp đã chuyển đổi sẽ được lưu và nhấp vào nút "Lưu". Ngay khi bạn nhấp vào nút "Lưu", tệp PDF sẽ được chuyển đổi sang định dạng văn bản trong giây lát và sẽ được lưu tại đích đã chọn. Vì vậy, đây là cách bạn chuyển đổi PDF thành văn bản mà không cần sử dụng Python hay bất kỳ ngôn ngữ phức tạp nào khác