Python PDF sang văn bản

Python là một ngôn ngữ lập trình giàu tính năng. Chúng ta có thể thực hiện các thao tác khác nhau trên các tệp trong python bằng các mô-đun và thư viện khác nhau. Trong bài viết này, chúng tôi sẽ thảo luận về các cách khác nhau để chuyển đổi tệp pdf thành văn bản trong python

Chuyển đổi pdf thành văn bản bằng pypdf2

Để chuyển đổi pdf thành văn bản trong python, chúng ta có thể sử dụng mô-đun PyPDF2. Bạn có thể cài đặt mô-đun này bằng PIP bằng cách thực hiện lệnh sau trong dấu nhắc lệnh

pip3 install PyPDF2

Để chuyển file pdf sang text, đầu tiên chúng ta sẽ mở file bằng hàm open[] ở chế độ “rb”. tôi. e. Thay vì nội dung tệp, chúng tôi sẽ đọc tệp ở chế độ nhị phân. Hàm open[] lấy tên tệp làm đối số đầu vào đầu tiên và chế độ làm đối số đầu vào thứ hai. Sau khi mở tệp, nó trả về một đối tượng tệp mà chúng ta gán cho biến myFile.   

Sau khi lấy được đối tượng file, chúng ta sẽ tạo đối tượng pdfFileReader bằng cách sử dụng hàm PdfFileReader[] được định nghĩa trong module PyPDF2. Hàm PdfFileReader[] chấp nhận đối tượng tệp chứa tệp pdf làm đối số đầu vào và trả về đối tượng pdfFileReader. Sử dụng pdfFileReader, chúng tôi có thể chuyển đổi tệp PDF thành văn bản.  

Ngoài ra, chúng tôi sẽ mở tệp “open[]1” ở chế độ ghi để lưu dữ liệu văn bản được trích xuất từ ​​​​tệp pdf bằng hàm open[]. Chúng tôi sẽ gán đối tượng tệp này cho một biến open[]3

Để tạo file văn bản từ file PDF, đầu tiên chúng ta sẽ tìm số trang của file PDF. Đối với điều này, chúng ta sẽ sử dụng thuộc tính open[]4 của đối tượng pdfFileReader

1

2

3

4

5

6

7

8

9

 

nhập PyPDF2

 

Tệp của tôi = mở["/home/aditya1117 . pdf", "rb"]

tệp đầu ra = mở["đầu ra. txt", "w"]

pdfReader = PyPDF2. PdfFileReader[MyFile]

numOfPages = pdfReader. số trang

in["Số trang trong tệp pdf là. ", numOfPages]

 

đầu ra

1

2

3

 

Số số của trang trong the pdf file is: 1

 

Bạn có thể xem tệp pdf được sử dụng trong ví dụ này tại đây

Tác động của Covid-19 đối với các lĩnh vực kinh tế Ấn Độ và chiến lược kinh doanh sinh tồnTải về

Sau khi có số trang trong tệp PDF, chúng tôi sẽ sử dụng open[]6 để xử lý tất cả các trang của tệp pdf. Trong vòng lặp for, chúng tôi sẽ trích xuất từng trang từ tệp PDF bằng phương pháp open[]7. Phương thức open[]7, khi được gọi trên một đối tượng pdfFileReader, chấp nhận số trang làm đối số đầu vào và trả về một rb0 chứa dữ liệu từ trang được chỉ định của tệp PDF

Sau khi nhận được rb0, chúng tôi sẽ sử dụng phương pháp rb2 để trích xuất văn bản từ trang hiện tại. Sau đó, chúng tôi sẽ ghi văn bản được trích xuất vào tệp văn bản đầu ra

Sau khi trích xuất văn bản từ tất cả các trang trong pdf, chúng tôi sẽ đóng cả tệp văn bản và tệp pdf. Nếu không, các thay đổi sẽ không được lưu

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

 

nhập PyPDF2

 

Tệp của tôi = mở["/home/aditya1117 . pdf",

              "rb"]

output_file = mở["/home/aditya1117 . txt", "w"]

pdfReader = PyPDF2. PdfFileReader[MyFile]

numOfPages = pdfReader. số trang

cho i trong phạm vi[numOfPages]:

    trang = pdfReader. getPage[i]

    văn bản = trang. trích xuất văn bản[]

    tệp đầu ra. viết[văn bản]

tệp đầu ra. đóng[]

Tệp của tôi. đóng[]

 

đầu ra

output_text_fileTải xuống

Chuyển đổi pdf thành văn bản bằng PDFminer

Thay vì sử dụng PyPDF2, chúng ta có thể sử dụng mô-đun rb3 để chuyển đổi tệp pdf thành tệp văn bản. Bạn có thể cài đặt mô-đun rb3 như sau

rb5

Mô-đunrb3 cung cấp cho chúng tôi chức năng rb7 mà chúng tôi có thể sử dụng để chuyển đổi tệp PDF thành tệp văn bản. Hàm rb7 chấp nhận một đối tượng tệp đại diện cho tệp PDF làm đối số đầu vào và trả về dữ liệu văn bản trong tệp.  

Sau khi mở tệp PDF và tệp văn bản đầu ra, chúng ta có thể trích xuất văn bản từ tệp PDF bằng hàm rb9xt[]. Sau đó, chúng tôi sẽ lưu dữ liệu văn bản vào tệp đầu ra. Đừng quên đóng các tệp trước khi kết thúc chương trình

1

2

3

4

5

6

7

8

 

từ pdfminer. high_level nhập extract_text

 

text = extract_text["/home/aditya1117 . pdf"]

output_file = mở["/home/aditya1117 . txt", "w"]

tệp đầu ra. viết[văn bản]

tệp đầu ra. đóng[]

 

đầu ra

output_text_fileTải xuống

Phần kết luận

Trong bài viết này, chúng tôi đã thảo luận về hai cách để chuyển đổi pdf thành tệp văn bản trong python. Trong số tất cả những cách này, cách tiếp cận sử dụng mô-đun PyPDF2 là nhanh nhất về tốc độ thực thi. Tuy nhiên, bạn có thể sử dụng bất kỳ phương pháp nào một cách thuận tiện

Làm cách nào để trích xuất PDF thành văn bản Python?

Các bước chuyển đổi PDF sang TXT bằng Python .
Bước 01 – Tạo tệp PDF [hoặc tìm tệp hiện có] Mở tài liệu Word mới. .
Bước 02 – Cài đặt PyPDF2. Đầu tiên, chúng tôi sẽ cài đặt một mô-đun bên ngoài có tên PyPDF2. .
Bước 03 – Mở tệp Python mới cho tập lệnh. Mở IDLE python của bạn và nhấn phím ctrl + N

Bạn có thể chuyển đổi PDF thành văn bản không?

Chuyển PDF sang văn bản . Và thật đơn giản. chỉ cần tải lên tệp PDF của bạn và để chúng tôi làm phần còn lại. Sau khi bạn cung cấp tệp của mình, PDF2Go sẽ sử dụng OCR để lấy văn bản từ tệp PDF của bạn và lưu dưới dạng tệp TXT. With the help of Optical Character Recognition [OCR], you can extract any text from a PDF document into a simple text file. And it's simple: just upload your PDF and let us do the rest. After you provided your file, PDF2Go will use OCR to get the text from your PDF and save it as a TXT file.

Chủ Đề