Hướng dẫn này hiển thị hướng dẫn về cách đọc tệp từ bằng Python. Bạn biết rằng tệp từ là tuyệt vời cho mục đích tài liệu. Hướng dẫn này cũng chỉ ra cách cài đặt các mô-đun docx và nltk trong Hệ điều hành Windows. Các mô-đun này được yêu cầu để đọc tệp word hoặc docx bằng Python
Lợi ích của tài liệu Word
Công cụ này được sử dụng trong nhiều lĩnh vực và một số trong số chúng được đưa ra dưới đây
- Bạn có thể tạo tất cả các loại tài liệu chính thức trong Microsoft Word
- Bạn có thể tạo kịch bản bài giảng bằng cách sử dụng văn bản, nghệ thuật chữ, hình dạng, màu sắc và hình ảnh
- Bạn có thể tạo thiệp sinh nhật, thiệp mời trong Microsoft Word bằng cách sử dụng các mẫu có sẵn hoặc sử dụng chức năng menu chèn và menu định dạng
- Bạn có thể làm nổi bật kiến thức cơ bản và nâng cao về MS Word như một kỹ năng tuyệt vời trong sơ yếu lý lịch của bạn cho cuộc phỏng vấn xin việc
- Bạn có thể tạo ghi chú và bài tập trên MS-word
- Bạn có thể tạo và in sách bằng MS Word bằng cách tạo trang bìa, nội dung, đầu trang và chân trang, điều chỉnh hình ảnh, căn chỉnh văn bản và đánh dấu văn bản, v.v.
- Bạn có thể bắt đầu kinh doanh trực tuyến và ngoại tuyến. Bạn cần tạo tài liệu cho công việc chính thức
- Bạn có thể sử dụng Microsoft word để cộng tác với nhóm của mình khi làm việc trên cùng một dự án và tài liệu
- Hơn nữa, phần mềm này được sử dụng rộng rãi trong nhiều lĩnh vực ứng dụng khác nhau trên toàn thế giới và nó cũng được áp dụng cho khoa học dữ liệu
bài viết liên quan
- Viết tài liệu word bằng Python
- Tạo Header và Footer trong Tài liệu Word bằng Python
Bạn có thể đã thấy các hoạt động khác nhau trên các tệp từ sử dụng API tuyệt vời – Apache POI trong công nghệ Java và nó yêu cầu thêm vài dòng mã phải được viết để đọc hoặc ghi vào tệp từ
Nhưng để đọc file word bằng Python rất dễ dàng với vài dòng code. Tôi sẽ sử dụng một tệp word mẫu ở đây để đọc tệp word
Bạn cũng có thể tải xuống tệp từ mẫu thông qua tìm kiếm của Google và dùng thử
Hãy chuyển sang ví dụ…
điều kiện tiên quyết
Trăn 3. 8. 0 – 3. 9. 1, Gói – docx, nltk
Chuẩn bị không gian làm việc
Chuẩn bị không gian làm việc là một trong những điều đầu tiên bạn có thể làm để đảm bảo rằng bạn có một khởi đầu thuận lợi. Bước đầu tiên là kiểm tra thư mục làm việc của bạn
Khi bạn đang làm việc trong thiết bị đầu cuối Python, trước tiên bạn cần điều hướng đến thư mục chứa tệp của bạn và sau đó khởi động Python, tôi. e. , bạn phải đảm bảo rằng tệp của bạn nằm trong thư mục mà bạn muốn làm việc từ đó
Cài đặt mô-đun
Kiểm tra các mô-đun docx và nltk trong thiết bị đầu cuối Python. Gõ lệnh như hình bên dưới để kiểm tra gói docx và nltk. Nếu bạn không nhận được bất kỳ thông báo lỗi nào thì mô-đun tồn tại nếu không bạn phải cài đặt mô-đun không tồn tại
import docx
import nltk
Nếu bạn không có sẵn mô-đun docx và nltk, vui lòng tìm các bước bên dưới để cài đặt mô-đun docx và nltk trong Hệ điều hành Windows
Vui lòng đảm bảo rằng bạn mở dấu nhắc cmd ở chế độ quản trị viên
Cài đặt mô-đun – docx
Thực hiện lệnh bên dưới để cài đặt mô-đun docx. Mặc dù hình ảnh bên dưới hiển thị phiên bản cũ hơn của python-docx chỉ để hiển thị cách cài đặt, nhưng ở đây tôi đang sử dụng phiên bản python-docx 0. 8. 10. Trên thực tế, thực thi lệnh pip install python-docx
sẽ cài đặt phiên bản mô-đun mới nhất
Cài đặt mô-đun – nltk
Bây giờ bạn sẽ thấy cách cài đặt mô-đun nltk
Thực hiện lệnh bên dưới để cài đặt mô-đun nltk. Đảm bảo bạn mở dấu nhắc cmd ở chế độ quản trị viên
Cài đặt nltk chưa đủ như hình trên, bạn cần tải các gói cần thiết. Vì vậy, hãy tải xuống bằng lệnh bên dưới trong cửa sổ Python
Bây giờ một cửa sổ bật lên sẽ mở để tải xuống các gói cần thiết
Khi các gói yêu cầu được tải xuống, bạn sẽ thấy màn hình sau
Bạn đã hoàn tất cài đặt nltk
Đọc tệp Word
Bây giờ hãy chuyển sang ví dụ đọc tệp word bằng Python
Trong hình ảnh bên dưới, bạn thấy tôi đã mở dấu nhắc cmd và điều hướng đến thư mục nơi tôi đã đặt tệp word cần đọc
Mình sẽ đọc file word bên dưới bằng ngôn ngữ lập trình Python. Tôi sẽ đọc toàn bộ nội dung từ file word và hiển thị những nội dung đó vào bảng điều khiển Python. Bạn có thể đọc nội dung tệp word và làm việc khác cho doanh nghiệp của mình bằng lập trình Python
File word trên cho vào ổ C. \py_scripts nơi tôi cũng sẽ đặt tập lệnh Python để đọc tệp word
Bây giờ hãy tạo tập lệnh Python read_word. py dưới C. \py_scripts để đọc file word trên. Đây py là phần mở rộng của tệp Python