Làm cách nào để kết hợp nhiều tệp csv thành một trong python?

Tệp CSV có lẽ là cách phổ biến nhất để lưu trữ và chia sẻ dữ liệu. Ổ cứng máy tính để bàn của chúng tôi chứa đầy chúng, cho dù đó là từ một trang web hay đồng nghiệp của chúng tôi. Hàng ngày, chúng tôi tạo ra một lượng dữ liệu khổng lồ từ một số hệ thống sản xuất như trang web, ứng dụng giao dịch, trò chơi di động hoặc quảng cáo trực tuyến. Khi dữ liệu được lấy từ các ứng dụng này, chúng thường ở định dạng tệp phẳng. Khi làm việc với các tệp CSV này, chúng tôi làm việc với nhiều công cụ như chương trình bảng tính, cơ sở dữ liệu quan hệ hoặc thư mục dùng chung

Khi không có quá nhiều tệp lớn, bạn có thể mở từng tệp bằng chương trình bảng tính theo cách thủ công. Tuy nhiên, nếu bạn có nhiều hơn vài chục tệp, quá trình này có thể tốn nhiều công sức và thời gian. Ngoài ra, tổng số hàng có thể vượt quá giới hạn của chương trình bảng tính của bạn. Ví dụ: Excel có thể lưu trữ tối đa 1.048.576 hàng trong một trang tính

May mắn thay, có một số phương pháp hữu ích có thể giúp bạn kết hợp các tệp CSV này một cách hiệu quả và tự động hơn

lựa chọn 1. Dấu nhắc lệnh

Nếu bạn là người dùng Windows, bạn có thể sử dụng Dấu nhắc lệnh tích hợp để kết hợp các tệp CSV. Command Prompt là một giao diện văn bản cho máy tính của bạn. Bạn có thể gõ lệnh đơn giản để hợp nhất các tập tin

Trước tiên, hãy đặt tất cả các tệp CSV của bạn vào một thư mục và sao chép đường dẫn đầy đủ của thư mục đó. Sau đó, mở Command Prompt của bạn và gõ lệnh sau liên tiếp

  1. Điều hướng đến thư mục lưu trữ các tệp CSV của bạn. Bạn có thể thay đổi
cd C:\Users\admin\Documents\csv_files

2. Sau đó, nhập một lệnh khác để kết hợp các tệp CSV. Lệnh này sẽ hợp nhất tất cả các tệp CSV trong màn hình đầu tiên thành một tệp CSV duy nhất có tên là all-csv-files.csv

copy *.csv all-csv-files.csv

Sau khi thực hiện các lệnh trên, bạn tìm thấy file đầu ra đã có trong thư mục

Lựa chọn 2. lập trình

Nếu bạn thành thạo lập trình, bạn chắc chắn có thể viết một tập lệnh chẳng hạn như Python để kết hợp các tệp CSV. Chúng có các chức năng hoặc gói hữu ích cho phép bạn xử lý các tệp CSV. Dưới đây là các mã mẫu sử dụng Python làm ví dụ

# Import necessary packages
import pandas as pd
import os

# Navigate to the folder where your CSV files are 
os.chdir['C:\Users\admin\Documents\csv_files']

# Create an empty dataframe
df = pd.DataFrame[[]]

# Read all CSV files and append them to df
for root, dirs, files in os.walk["."]:
   for name in files:
       df_temp = pd.read_csv[name]
       df = pd.concat[[df,df_temp]]

# Save df to a CSV file
df.to_csv['all-csv-files.csv']

Ngoài việc hợp nhất các tệp CSV, Python cũng cho phép bạn xem dữ liệu của mình trông như thế nào và do đó thực hiện làm sạch hoặc phân tích dữ liệu. Tuy nhiên, nếu tệp đầu ra của bạn quá lớn, chẳng hạn như hơn 10 GB, Python có thể không xử lý được tệp đó bằng cách sử dụng tài nguyên máy tính cục bộ của bạn. Vì môi trường đang chạy trên máy cục bộ của bạn nên máy tính của bạn phải có RAM ít nhất 10 GB để mở tệp

Tùy chọn 3. Công cụ quản lý dữ liệu đám mây

Nếu bạn không quen lập trình và tệp của bạn có thể quá lớn để đọc, bạn có thể thử các công cụ quản lý dữ liệu đám mây như Acho. Các nền tảng này cho phép bạn quản lý các tệp CSV của mình trong cơ sở dữ liệu đám mây và hỗ trợ kết hợp dữ liệu mà không cần mã. Họ có thể xử lý dữ liệu rất nhanh và có thể mở bất kỳ tệp CSV nào mà không bị giới hạn về kích thước. Ngoài ra bạn có thể lưu trữ dữ liệu trên cloud mà không chiếm dung lượng máy tính. Cuối cùng, chúng có nhiều tính năng hỗ trợ chuyển đổi và phân tích tập dữ liệu của bạn sau khi tất cả các tệp CSV được hợp nhất với nhau

Tải lên nhiều tệp CSV

Trước tiên, hãy truy cập trang tài nguyên và chọn Batch CSV. Sau đó, tải lên tất cả các tệp CSV của bạn và hệ thống sẽ tự động kết hợp chúng thành một bảng. Hãy cẩn thận rằng tất cả các tệp phải có cùng một lược đồ, nghĩa là cùng số cột và cùng kiểu dữ liệu cho mỗi cột

tải lên nhiều tệp csv cùng một lúc

Thêm tệp CSV mới vào Batch CSV

Bạn có thể quản lý Batch CSV của mình bằng cách nhấp vào nó để vào Quản lý tệp. Nó hiển thị danh sách các tệp được bao gồm trong Batch CSV của bạn. Ngoài ra, bạn có thể thêm nhiều tệp hơn vào nó và nó sẽ hợp nhất các tệp mới vào Batch CSV hiện tại

tải lên nhiều tệp csv cùng một lúc

Mở Batch CSV của bạn trong một dự án

Bạn có thể nhập Batch CSV vào một dự án. Cách này cho phép bạn xem toàn bộ bảng bao gồm tất cả các bản ghi từ các tệp CSV nhỏ khác nhau. Giờ đây, bạn có thể khám phá tập dữ liệu hoặc xây dựng đường dẫn dữ liệu để làm sạch dữ liệu hoặc tạo báo cáo

>> Bài viết tương đối. Làm cách nào để chỉnh sửa hàng loạt tệp CSV?

truy cập và xử lý tệp csv hàng loạt

Cập nhật bảng của bạn với dữ liệu mới

Khi bạn thêm các tệp mới vào tệp CSV hàng loạt của mình, bạn có thể cập nhật bảng của mình bằng cách nhấp vào nút Đồng bộ hóa. Nó sẽ thay thế bảng hiện tại của bạn bằng bảng mới nhất và tự động chạy toàn bộ đường dẫn dữ liệu. Do đó, nếu bạn đã thực hiện một số thao tác chuyển đổi dữ liệu hoặc làm sạch dữ liệu, bạn không cần phải xây dựng lại chúng

cập nhật tệp csv hàng loạt

Nhìn chung, nếu bạn giỏi lập trình và tệp CSV của bạn không quá lớn, bạn có thể sử dụng dấu nhắc lệnh hoặc ngôn ngữ lập trình để hợp nhất tệp. Tuy nhiên, nếu bạn giỏi, bạn cần một hệ thống để quản lý và phân tích các tệp CSV của mình theo cấu trúc cứng nhắc, thì các công cụ quản lý dữ liệu đám mây sẽ phù hợp hơn với bạn

Trong bài viết này, chúng tôi chỉ thảo luận về cách kết hợp các bộ dữ liệu với cùng một lược đồ. Nếu một số tệp của bạn có các lược đồ khác nhau, chẳng hạn như số lượng cột khác nhau hoặc bạn muốn kết hợp các bộ dữ liệu theo chiều ngang, thì bạn nên xem xét các phương pháp khác để thực hiện việc đó. [Bài liên quan. Làm cách nào để kết hợp hàng tá bộ dữ liệu lớn với nhau trong một phút?]

Nếu bạn cần bất kỳ trợ giúp nào trong việc kết hợp nhiều tệp CSV, vui lòng liên hệ với chúng tôi qua hộp trò chuyện bên dưới

Làm cách nào để hợp nhất 1000 tệp CSV trong Python?

Để hợp nhất tất cả các tệp CSV, hãy sử dụng mô-đun GLOB . hệ điều hành. con đường. phương thức join[] được sử dụng bên trong concat[] để hợp nhất các tệp CSV lại với nhau.

Làm cách nào để kết hợp 2 tệp CSV trong gấu trúc?

Từng bước hợp nhất hai tệp CSV .
nhập gấu trúc dưới dạng pd
csv1 = pd. read_csv["dữ liệu/Danh sách doanh thu. csv"] csv1. cái đầu[]
csv2 = pd. read_csv["dữ liệu/EquityList. csv"] csv2. cái đầu[]
merge_data = csv1. hợp nhất[csv2,on=["Mã bảo mật"]] merge_data. cái đầu[]
dữ liệu1 = pd. read_csv["dữ liệu/trang tính 1. csv"] dữ liệu1. cái đầu[]

Python xử lý nhiều tệp CSV như thế nào?

Bạn có thể làm điều này bằng cách đọc từng tệp CSV vào DataFrame và nối thêm hoặc nối các DataFrame để tạo một DataFrame duy nhất có dữ liệu từ tất cả các tệp . Ở đây, tôi sẽ sử dụng read_csv[] để đọc tệp CSV và hàm concat[] để nối các DataFrame lại với nhau để tạo một DataFrame lớn.

Bạn có thể nối các tệp CSV không?

Nếu bạn là người dùng Windows, bạn có thể sử dụng Dấu nhắc Lệnh tích hợp để kết hợp các tệp CSV . Command Prompt là một giao diện văn bản cho máy tính của bạn. Bạn có thể gõ lệnh đơn giản để hợp nhất các tập tin. Trước tiên, hãy đặt tất cả các tệp CSV của bạn vào một thư mục và sao chép đường dẫn đầy đủ của thư mục đó.

Chủ Đề