Pandas là một công cụ đặc biệt cho phép chúng tôi thực hiện các thao tác dữ liệu phức tạp một cách hiệu quả và hiệu quả. Bên trong gấu trúc, chúng tôi chủ yếu xử lý tập dữ liệu ở dạng DataFrame. DataFrames là cấu trúc dữ liệu 2 chiều trong pandas. DataFrames bao gồm các hàng, cột và dữ liệu
Tạo nhiều khung dữ liệu trong vòng lặp
Vòng lặp là chức năng chạy n số lần trong đó giá trị của n có thể được xác định bởi người dùng, do đó chúng tôi sẽ sử dụng vòng lặp for để tạo DataFrames
Với mục đích này, chúng ta sẽ tạo một danh sách chứa tên của các loại trái cây khác nhau
Chúng tôi sẽ tạo một Khung dữ liệu cho từng tên trái cây trong danh sách, với mục đích này, chúng tôi sẽ lặp lại danh sách này và trên mỗi lần truyền tải phần tử, chúng tôi sẽ tạo một Khung dữ liệu
Chúng tôi sẽ sử dụng khái niệm từ điển cho mục đích này, trước tiên chúng tôi sẽ tạo một từ điển và sau đó xác định từng khóa là thành phần của danh sách đó
Từ điển được sử dụng để lưu trữ dữ liệu không đồng nhất. Dữ liệu được lưu trữ trong khóa. cặp giá trị. Từ điển là một bộ sưu tập có thể thay đổi và sắp xếp theo tự nhiên và không cho phép trùng lặp, điều đó có nghĩa là có các khóa duy nhất trong từ điển. Khóa từ điển có thể có bất kỳ loại dữ liệu nào làm giá trị của nó, ví dụ: danh sách, bộ dữ liệu, chuỗi hoặc chính từ điển
Bằng cách sử dụng Python cho vòng lặp, bạn có thể nối các hàng hoặc cột vào Pandas DataFrames. Bạn có thể nối thêm hàng vào DataFrame bằng cách sử dụng append[], pandas. concat[] và loc[]. Trong bài viết này, tôi sẽ giải thích cách nối các hàng hoặc cột vào DataFrame của gấu trúc bằng cách sử dụng vòng lặp for và với sự trợ giúp của các chức năng trên
1. Ví dụ nhanh về Nối vào DataFrame bằng Vòng lặp
Nếu bạn đang vội, dưới đây là một số ví dụ nhanh về cách nối thêm DataFrames của gấu trúc bằng Python cho vòng lặp
# Below are some quick examples.
# Example 1: Append rows within a for loop
for i in range[1,4]:
df.loc[len[df]] = i *1
# Example 2: Append values to DataFrame
for i in range[1,4]:
df[i] = i *1
# Example 3: Append rows within for loop
# Create empty DataFrame
df = pd.DataFrame[columns = ['c1', 'c2', 'c3']]
for i in range[5]:
df.loc[len[df]] = i * 5
# Example 4: Append DataFrame using for loop
# Create a List
list1 = ['Python','PySpark', 'Pandas', 'NumPy']
# Create an empty list
list2 = []
# Create new values using for loop
for value in list1:
df_values = value
# Append df_values to llist2
list2.append[df_values]
# create DataFrame using for loop
df = pd.DataFrame[list2, columns=['Course'],index=['I1','I2','I3','I4']]
# Example 5: Append DataFrames using Dictionary
# Create a DataFrame
df = pd.DataFrame[{'Squares':[4, 9, 16, 25 ],
'Cubes':[8, 27, 64, 125]}]
for i in range[6,10]:
df=df.append[{'Squares': i**2, 'Cubes': i**3}, ignore_index=True]
Hãy tạo một DataFrame gấu trúc từ Từ điển Python với một vài hàng và cột, đồng thời thực hiện một số ví dụ để tìm hiểu cách chèn hàng. Khung dữ liệu của chúng tôi chứa các tên cột
# Create DataFrame
import pandas as pd
technologies = [{
'Courses':["Spark","Hadoop","pandas","Java","PySpark"],
'Fee' :[20000,25000,30000,22000,26000],
'Duration':['30days','40days','35days','60days','50days'],
'Discount':[1000,2500,1500,1200,3000]
}]
df = pd.DataFrame[technologies]
print[df]
2,
# Create DataFrame
import pandas as pd
technologies = [{
'Courses':["Spark","Hadoop","pandas","Java","PySpark"],
'Fee' :[20000,25000,30000,22000,26000],
'Duration':['30days','40days','35days','60days','50days'],
'Discount':[1000,2500,1500,1200,3000]
}]
df = pd.DataFrame[technologies]
print[df]
3,
# Create DataFrame
import pandas as pd
technologies = [{
'Courses':["Spark","Hadoop","pandas","Java","PySpark"],
'Fee' :[20000,25000,30000,22000,26000],
'Duration':['30days','40days','35days','60days','50days'],
'Discount':[1000,2500,1500,1200,3000]
}]
df = pd.DataFrame[technologies]
print[df]
4 và
# Create DataFrame
import pandas as pd
technologies = [{
'Courses':["Spark","Hadoop","pandas","Java","PySpark"],
'Fee' :[20000,25000,30000,22000,26000],
'Duration':['30days','40days','35days','60days','50days'],
'Discount':[1000,2500,1500,1200,3000]
}]
df = pd.DataFrame[technologies]
print[df]
5
# Create DataFrame
import pandas as pd
technologies = [{
'Courses':["Spark","Hadoop","pandas","Java","PySpark"],
'Fee' :[20000,25000,30000,22000,26000],
'Duration':['30days','40days','35days','60days','50days'],
'Discount':[1000,2500,1500,1200,3000]
}]
df = pd.DataFrame[technologies]
print[df]
Sản lượng dưới sản lượng
# Output:
Courses Fee Duration Discount
0 Spark 20000 30days 1000
1 Hadoop 25000 40days 2500
2 pandas 30000 35days 1500
3 Java 22000 60days 1200
4 PySpark 26000 50days 3000
2. Nối các khung dữ liệu Pandas bằng For Loop
Sử dụng vòng lặp for để nối thêm một loạt giá trị vào cuối Khung dữ liệu của chúng tôi. Ví dụ sau đây cho thấy cách thêm một hàng có cùng giá trị vào DataFrame cho mỗi lần lặp. Hãy nối các hàng vào DataFrame của gấu trúc trong một vòng lặp
# Append rows within for loop
for i in range[1,4]:
df.loc[len[df]] = i *1
print[df]
Sản lượng dưới sản lượng
________số 8Ngoài ra, sử dụng vòng lặp for, chúng ta có thể thêm một loạt các giá trị dưới dạng cột của DataFrame. Chúng tôi sẽ nhận được các giá trị của các cột mới ở mỗi lần lặp
# Append values to DataFrame
for i in range[1,4]:
df[i] = i *1
print[df]
Sản lượng dưới sản lượng
# Create DataFrame
import pandas as pd
technologies = [{
'Courses':["Spark","Hadoop","pandas","Java","PySpark"],
'Fee' :[20000,25000,30000,22000,26000],
'Duration':['30days','40days','35days','60days','50days'],
'Discount':[1000,2500,1500,1200,3000]
}]
df = pd.DataFrame[technologies]
print[df]
04. Nối các hàng vào khung dữ liệu trống trong vòng lặp for
Hãy xem cách nối các hàng vào một khung dữ liệu trống bằng cách sử dụng vòng lặp for, trước tiên hãy tạo một khung dữ liệu trống
# Create DataFrame
import pandas as pd
technologies = [{
'Courses':["Spark","Hadoop","pandas","Java","PySpark"],
'Fee' :[20000,25000,30000,22000,26000],
'Duration':['30days','40days','35days','60days','50days'],
'Discount':[1000,2500,1500,1200,3000]
}]
df = pd.DataFrame[technologies]
print[df]
1Sử dụng vòng lặp for để nối các hàng mới vào DataFrame trống của chúng tôi
# Create DataFrame
import pandas as pd
technologies = [{
'Courses':["Spark","Hadoop","pandas","Java","PySpark"],
'Fee' :[20000,25000,30000,22000,26000],
'Duration':['30days','40days','35days','60days','50days'],
'Discount':[1000,2500,1500,1200,3000]
}]
df = pd.DataFrame[technologies]
print[df]
2Sản lượng dưới sản lượng
# Create DataFrame
import pandas as pd
technologies = [{
'Courses':["Spark","Hadoop","pandas","Java","PySpark"],
'Fee' :[20000,25000,30000,22000,26000],
'Duration':['30days','40days','35days','60days','50days'],
'Discount':[1000,2500,1500,1200,3000]
}]
df = pd.DataFrame[technologies]
print[df]
35. Một cách khác để Nối DataFrame trong vòng lặp for
Đây là một cách khác mà tôi muốn nối thêm DataFrames trong một vòng lặp. Để nối thêm, trước tiên hãy tạo DataFrame, sử dụng từ điển và nối chúng thành một DataFrame duy nhất trong vòng lặp for. Quá trình này nhanh hơn so với việc thêm các hàng mới vào DataFrame sau mỗi bước, vì bạn không xây dựng một DataFrame mới trên mỗi lần lặp lại
# Create DataFrame
import pandas as pd
technologies = [{
'Courses':["Spark","Hadoop","pandas","Java","PySpark"],
'Fee' :[20000,25000,30000,22000,26000],
'Duration':['30days','40days','35days','60days','50days'],
'Discount':[1000,2500,1500,1200,3000]
}]
df = pd.DataFrame[technologies]
print[df]
0Sản lượng dưới sản lượng
# Create DataFrame
import pandas as pd
technologies = [{
'Courses':["Spark","Hadoop","pandas","Java","PySpark"],
'Fee' :[20000,25000,30000,22000,26000],
'Duration':['30days','40days','35days','60days','50days'],
'Discount':[1000,2500,1500,1200,3000]
}]
df = pd.DataFrame[technologies]
print[df]
17. Sự kết luận
Trong bài viết này, tôi đã giải thích cách nối thêm DataFrames của gấu trúc bằng cách sử dụng vòng lặp for với sự trợ giúp của hàm
# Create DataFrame
import pandas as pd
technologies = [{
'Courses':["Spark","Hadoop","pandas","Java","PySpark"],
'Fee' :[20000,25000,30000,22000,26000],
'Duration':['30days','40days','35days','60days','50days'],
'Discount':[1000,2500,1500,1200,3000]
}]
df = pd.DataFrame[technologies]
print[df]
6