Làm cách nào chúng ta có thể tạo một DataFrame python?
Trong khi thực hiện EDA (phân tích dữ liệu khám phá) hoặc phát triển/thử nghiệm các mô hình, người ta thường sử dụng DataFrame mạnh mẽ nhưng thanh lịch của gấu trúc để lưu trữ và thao tác dữ liệu. Và thông thường, nó bắt đầu với việc “tạo một khung dữ liệu” Show Tôi thường gặp các tình huống sau khi bắt đầu một số EDA hoặc lập mô hình với gấu trúc
Mỗi tình huống này khiến tôi phải google cú pháp hoặc tra cứu tài liệu mỗi lần, cho đến khi tôi dần ghi nhớ chúng sau nhiều tháng và nhiều năm luyện tập Hiểu được nỗi đau khi tra cứu, tôi nghĩ rằng một bảng tra cứu nhanh về nhiều cách để tạo khung dữ liệu trong gấu trúc có thể tiết kiệm thời gian. Điều này có thể giúp người học cho đến khi họ trở thành nhà phân tích dữ liệu hoặc nhà khoa học dữ liệu dày dạn kinh nghiệm Vì vậy, đây là một số cách chúng ta có thể tạo một khung dữ liệu. Nếu bất cứ ai đọc điều này tìm thấy những cách hoặc phương pháp tao nhã khác, xin vui lòng bình luận hoặc nhắn tin cho tôi; Sử dụng hàm tạo DataFrame pd. Khung dữ liệu()Hàm tạo pandas DataFrame() cung cấp nhiều cách khác nhau để tạo và khởi tạo một khung dữ liệu
# method 0# Initialize a blank dataframe and keep addingdf = pd.DataFrame(columns = ['year','make','model'])# Add records to dataframe using the .loc functiondf.loc[0] = [2014,"toyota","corolla"]
# Pass a 2D numpy array - each row is the corresponding row required in the dataframe
data = {'year': [2014, 2018,2020,2017],
data = [{'year': 2014, 'make': "toyota", 'model':"corolla"},
data = {'year': [2014, 2018,2020,2017], Ghi chú. Có sự khác biệt giữa phương pháp 2 và 4 mặc dù cả hai đều là từ điển. Sử dụng from_dict, chúng tôi có khả năng chọn bất kỳ cột nào làm chỉ mục của khung dữ liệu. Điều gì sẽ xảy ra nếu các tên cột chúng tôi đã sử dụng ở trên cần phải được lập chỉ mục - giống như chuyển vị của dữ liệu trước đó? df = pd.DataFrame.from_dict(data, orient='index',columns=['record1', 'record2', 'record3', 'record4']) Sử dụng các hàm thư viện pandas — read_csv, read_json
df = pd.read_csv('data.csv' , sep = ',', header = 'infer', index_col = None)
from io import StringIO# f is a file handle created from a csv like stringf = StringIO('year,make,model\n2014,toyota,corolla\n2018,honda,civic\n2020,hyndai,accent\n2017,nissan,sentra')df = pd.read_csv(f)
from io import StringIO# f is a file handle created from json like stringf = StringIO('{"year": "2014", "make": "toyota", "model": "corolla"}\n{"year": "2018", "make": "honda", "model": "civic"}\n{"year": "2020", "make": "hyndai", "model": "accent"}\n{"year": "2017", "make": "nissan", "model": "sentra"}')df = pd.read_json(f,lines=True)
# Pass a 2D numpy array - each row is the corresponding row required in the dataframe 0Từ các khung dữ liệu khác
# Pass a 2D numpy array - each row is the corresponding row required in the dataframe 1Ghi chú. Hai phương thức hiển thị ở trên là khác nhau - hàm copy() tạo một đối tượng khung dữ liệu hoàn toàn mới độc lập với đối tượng gốc trong khi phương thức sao chép biến chỉ tạo một biến bí danh cho khung dữ liệu gốc - không có đối tượng khung dữ liệu mới nào được tạo. Nếu có bất kỳ thay đổi nào đối với khung dữ liệu gốc, nó cũng được phản ánh trong bí danh như hình bên dưới # Pass a 2D numpy array - each row is the corresponding row required in the dataframe 2# Pass a 2D numpy array - each row is the corresponding row required in the dataframe 3
# Pass a 2D numpy array - each row is the corresponding row required in the dataframe 4Trong ví dụ trên, chỉ mục của khung dữ liệu thứ 2 được giữ nguyên trong khung dữ liệu được nối. Để đặt lại các chỉ mục khớp với toàn bộ khung dữ liệu, hãy sử dụng hàm reset_index() của khung dữ liệu # Pass a 2D numpy array - each row is the corresponding row required in the dataframe 5
# Pass a 2D numpy array - each row is the corresponding row required in the dataframe 6GHI CHÚ. Đối với nối ngang,
tham gia bên trong # Pass a 2D numpy array - each row is the corresponding row required in the dataframe 7Chỗ nối bên trái # Pass a 2D numpy array - each row is the corresponding row required in the dataframe 8
# Pass a 2D numpy array - each row is the corresponding row required in the dataframe 9
One-Hot về cơ bản là chuyển đổi một giá trị cột thành một tập hợp các cột dẫn xuất như Biểu diễn nhị phân Bất kỳ một trong các tập hợp cột one-hot là 1 và phần còn lại là 0 Nếu chúng ta biết rằng một chiếc ô tô có các loại thân xe = SEDAN, SUV, VAN, TRUCK, thì một chiếc Toyota corolla có thân xe = ‘SEDAN’ sẽ được mã hóa một lần thành data = {'year': [2014, 2018,2020,2017], 0Each one hot column is basically of the format Dưới đây là một ví dụ data = {'year': [2014, 2018,2020,2017], 1Tôi hy vọng “cheat-sheet” này sẽ giúp ích trong giai đoạn đầu học EDA hoặc lập mô hình. Chắc chắn với thời gian và luyện tập liên tục, tất cả những điều này sẽ được ghi nhớ Tất cả những điều tốt nhất sau đó. ) Hãy chia sẻ các đầu vào có giá trị của bạn nếu bạn có bất kỳ cách tạo khung dữ liệu tao nhã nào khác hoặc nếu có bất kỳ chức năng mới nào có thể tạo khung dữ liệu cho một số mục đích cụ thể Phương pháp tạo DataFrame là gì?Do đó, phương pháp đầu tiên và quan trọng nhất để tạo khung dữ liệu là đọc tệp csv , đây là thao tác đơn giản trong Pandas. Chúng ta chỉ cần cung cấp đường dẫn tệp cho hàm read_csv. Hàm read_csv rất linh hoạt. Nó có một số tham số cho phép sửa đổi tệp csv trong khi đọc.
Làm cách nào để tạo tập dữ liệu trong Python?Làm cách nào để tạo Tập dữ liệu bằng Python? . Để tạo tập dữ liệu cho bài toán phân loại với python, chúng ta sử dụng phương thức make_classification có sẵn trong thư viện sci-kit learn. . Phương thức make_classification trả về theo mặc định, ndarrays tương ứng với biến/tính năng và mục tiêu/đầu ra Các cách khác nhau để tạo DataFrame trong Python là gì?5 cách tạo khung dữ liệu Pandas bằng Python . Tạo pandas DataFrame từ từ điển danh sách. . Tạo pandas DataFrame từ từ điển của mảng numpy. . Tạo pandas DataFrame từ danh sách các danh sách. . Tạo pandas DataFrame từ danh sách từ điển. . Tạo pandas Dataframe từ dictionary of pandas Series |