Đọc file word bằng Python

Hướng dẫn này hiển thị hướng dẫn về cách đọc tệp từ bằng Python. Bạn biết rằng tệp từ là tuyệt vời cho mục đích tài liệu. Hướng dẫn này cũng chỉ ra cách cài đặt các mô-đun docx và nltk trong Hệ điều hành Windows. Các mô-đun này được yêu cầu để đọc tệp word hoặc docx bằng Python

Lợi ích của tài liệu Word

Công cụ này được sử dụng trong nhiều lĩnh vực và một số trong số chúng được đưa ra dưới đây

  • Bạn có thể tạo tất cả các loại tài liệu chính thức trong Microsoft Word
  • Bạn có thể tạo kịch bản bài giảng bằng cách sử dụng văn bản, nghệ thuật chữ, hình dạng, màu sắc và hình ảnh
  • Bạn có thể tạo thiệp sinh nhật, thiệp mời trong Microsoft Word bằng cách sử dụng các mẫu có sẵn hoặc sử dụng chức năng menu chèn và menu định dạng
  • Bạn có thể làm nổi bật kiến ​​thức cơ bản và nâng cao về MS Word như một kỹ năng tuyệt vời trong sơ yếu lý lịch của bạn cho cuộc phỏng vấn xin việc
  • Bạn có thể tạo ghi chú và bài tập trên MS-word
  • Bạn có thể tạo và in sách bằng MS Word bằng cách tạo trang bìa, nội dung, đầu trang và chân trang, điều chỉnh hình ảnh, căn chỉnh văn bản và đánh dấu văn bản, v.v.
  • Bạn có thể bắt đầu kinh doanh trực tuyến và ngoại tuyến. Bạn cần tạo tài liệu cho công việc chính thức
  • Bạn có thể sử dụng Microsoft word để cộng tác với nhóm của mình khi làm việc trên cùng một dự án và tài liệu
  • Hơn nữa, phần mềm này được sử dụng rộng rãi trong nhiều lĩnh vực ứng dụng khác nhau trên toàn thế giới và nó cũng được áp dụng cho khoa học dữ liệu

bài viết liên quan

  • Viết tài liệu word bằng Python
  • Tạo Header và Footer trong Tài liệu Word bằng Python

Bạn có thể đã thấy các hoạt động khác nhau trên các tệp từ sử dụng API tuyệt vời – Apache POI trong công nghệ Java và nó yêu cầu thêm vài dòng mã phải được viết để đọc hoặc ghi vào tệp từ

Nhưng để đọc file word bằng Python rất dễ dàng với vài dòng code. Tôi sẽ sử dụng một tệp word mẫu ở đây để đọc tệp word

Bạn cũng có thể tải xuống tệp từ mẫu thông qua tìm kiếm của Google và dùng thử

Hãy chuyển sang ví dụ…

điều kiện tiên quyết

Trăn 3. 8. 0 – 3. 9. 1, Gói – docx, nltk

Chuẩn bị không gian làm việc

Chuẩn bị không gian làm việc là một trong những điều đầu tiên bạn có thể làm để đảm bảo rằng bạn có một khởi đầu thuận lợi. Bước đầu tiên là kiểm tra thư mục làm việc của bạn

Khi bạn đang làm việc trong thiết bị đầu cuối Python, trước tiên bạn cần điều hướng đến thư mục chứa tệp của bạn và sau đó khởi động Python, tôi. e. , bạn phải đảm bảo rằng tệp của bạn nằm trong thư mục mà bạn muốn làm việc từ đó

Cài đặt mô-đun

Kiểm tra các mô-đun docx và nltk trong thiết bị đầu cuối Python. Gõ lệnh như hình bên dưới để kiểm tra gói docx và nltk. Nếu bạn không nhận được bất kỳ thông báo lỗi nào thì mô-đun tồn tại nếu không bạn phải cài đặt mô-đun không tồn tại

import docx
import nltk

Nếu bạn không có sẵn mô-đun docx và nltk, vui lòng tìm các bước bên dưới để cài đặt mô-đun docx và nltk trong Hệ điều hành Windows

Vui lòng đảm bảo rằng bạn mở dấu nhắc cmd ở chế độ quản trị viên

Cài đặt mô-đun – docx

Thực hiện lệnh bên dưới để cài đặt mô-đun docx. Mặc dù hình ảnh bên dưới hiển thị phiên bản cũ hơn của python-docx chỉ để hiển thị cách cài đặt, nhưng ở đây tôi đang sử dụng phiên bản python-docx 0. 8. 10. Trên thực tế, thực thi lệnh pip install python-docx sẽ cài đặt phiên bản mô-đun mới nhất

Cài đặt mô-đun – nltk

Bây giờ bạn sẽ thấy cách cài đặt mô-đun nltk

Thực hiện lệnh bên dưới để cài đặt mô-đun nltk. Đảm bảo bạn mở dấu nhắc cmd ở chế độ quản trị viên

Cài đặt nltk chưa đủ như hình trên, bạn cần tải các gói cần thiết. Vì vậy, hãy tải xuống bằng lệnh bên dưới trong cửa sổ Python

Bây giờ một cửa sổ bật lên sẽ mở để tải xuống các gói cần thiết

Khi các gói yêu cầu được tải xuống, bạn sẽ thấy màn hình sau

Bạn đã hoàn tất cài đặt nltk

Đọc tệp Word

Bây giờ hãy chuyển sang ví dụ đọc tệp word bằng Python

Trong hình ảnh bên dưới, bạn thấy tôi đã mở dấu nhắc cmd và điều hướng đến thư mục nơi tôi đã đặt tệp word cần đọc

Mình sẽ đọc file word bên dưới bằng ngôn ngữ lập trình Python. Tôi sẽ đọc toàn bộ nội dung từ file word và hiển thị những nội dung đó vào bảng điều khiển Python. Bạn có thể đọc nội dung tệp word và làm việc khác cho doanh nghiệp của mình bằng lập trình Python

File word trên cho vào ổ C. \py_scripts nơi tôi cũng sẽ đặt tập lệnh Python để đọc tệp word

Bây giờ hãy tạo tập lệnh Python read_word. py dưới C. \py_scripts để đọc file word trên. Đây py là phần mở rộng của tệp Python

Python có thể đọc một tệp từ không?

Khoa học dữ liệu thực tế sử dụng Python . Đầu tiên chúng tôi cài đặt docx như hình dưới đây. Sau đó viết chương trình sử dụng các chức năng khác nhau trong mô-đun docx để đọc toàn bộ tệp theo đoạn văn. Chúng tôi sử dụng lệnh dưới đây để đưa mô-đun docx vào môi trường của chúng tôi. To read a word document we take help of the module named docx. We first install docx as shown below. Then write a program to use the different functions in docx module to read the entire file by paragraphs. We use the below command to get the docx module into our environment.

Làm cách nào để đọc tệp từ trong gấu trúc Python?

Kỹ thuật cơ bản trước tiên là khởi chạy ứng dụng Word dưới dạng tài liệu đang hoạt động, sau đó đọc nội dung/đoạn văn bằng Python . Hàm docReader[ ] được định nghĩa bên dưới trình bày cách thức [và đoạn mã đầy đủ được liên kết tại đây], Sau khi chạy hàm này, chúng ta sẽ thấy kết quả đầu ra giống như trong phần 1.

Làm cách nào để đọc tệp văn bản trong Python?

Có 6 chế độ truy cập trong python. .
Chỉ đọc ['r']. Mở tệp văn bản để đọc. .
Đọc và Viết ['r+']. Mở tệp để đọc và ghi. .
Chỉ viết ['w']. Mở tệp để ghi. .
Viết và Đọc ['w+']. Mở tệp để đọc và ghi. .
Chỉ nối thêm ['a']. Mở tệp để ghi

Làm cách nào để nhập tệp docx bằng Python?

Python - Làm việc với. .
Bước đầu tiên là cài đặt mô-đun bên thứ ba này python-docx. Bạn có thể sử dụng pip “pip cài đặt python-docx”
Sau khi cài đặt, hãy nhập “docx” KHÔNG “python-docx”
Sử dụng “docx. Document” để bắt đầu làm việc với tài liệu từ

Chủ Đề