Lựa chọn sử dụng nội bộ
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float648 để biểu thị dữ liệu bị thiếu phần lớn là vì lý do đơn giản và hiệu suất. Bắt đầu từ gấu trúc 1. 0, một số loại dữ liệu tùy chọn bắt đầu thử nghiệm với vô hướng
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float649 gốc bằng cách sử dụng phương pháp dựa trên mặt nạ. Xem thêm
Xem một số chiến lược nâng cao
Các giá trị được coi là "thiếu"
Vì dữ liệu có nhiều hình dạng và hình thức, pandas nhằm mục đích linh hoạt trong việc xử lý dữ liệu bị thiếu. Mặc dù
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float648 là điểm đánh dấu giá trị bị thiếu mặc định vì lý do tốc độ tính toán và sự thuận tiện, chúng tôi cần có khả năng dễ dàng phát hiện giá trị này với các loại dữ liệu khác nhau. dấu phẩy động, số nguyên, boolean và đối tượng chung. Tuy nhiên, trong nhiều trường hợp, Python
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object1 sẽ phát sinh và chúng tôi cũng muốn xem xét rằng “thiếu” hoặc “không có sẵn” hoặc “NA”
Ghi chú
Nếu bạn muốn coi
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object2 và
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object3 là "NA" trong tính toán, bạn có thể đặt
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object4
In [1]: df = pd.DataFrame[ ...: np.random.randn[5, 3], ...: index=["a", "c", "e", "f", "h"], ...: columns=["one", "two", "three"], ...: ] ...: In [2]: df["four"] = "bar" In [3]: df["five"] = df["one"] > 0 In [4]: df Out[4]: one two three four five a 0.469112 -0.282863 -1.509059 bar True c -1.135632 1.212112 -0.173215 bar False e 0.119209 -1.044236 -0.861849 bar True f -2.104569 -0.494929 1.071804 bar False h 0.721555 -0.706771 -1.039575 bar True In [5]: df2 = df.reindex[["a", "b", "c", "d", "e", "f", "g", "h"]] In [6]: df2 Out[6]: one two three four five a 0.469112 -0.282863 -1.509059 bar True b NaN NaN NaN NaN NaN c -1.135632 1.212112 -0.173215 bar False d NaN NaN NaN NaN NaN e 0.119209 -1.044236 -0.861849 bar True f -2.104569 -0.494929 1.071804 bar False g NaN NaN NaN NaN NaN h 0.721555 -0.706771 -1.039575 bar True
Để làm cho việc phát hiện các giá trị bị thiếu dễ dàng hơn [và trên các kiểu mảng khác nhau], gấu trúc cung cấp các hàm và, đây cũng là các phương thức trên các đối tượng Sê-ri và DataFrame
________số 8
Cảnh báo
Người ta phải lưu ý rằng trong Python [và NumPy],
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object7 không so sánh bằng nhau, nhưng
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object8 thì có. Lưu ý rằng pandas/NumPy sử dụng thực tế là
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object9 và đối xử với
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object1 như
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6431
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float644
Vì vậy, so với ở trên, so sánh đẳng thức vô hướng so với
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6432 không cung cấp thông tin hữu ích
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float646
Kiểu số nguyên và thiếu dữ liệu
Bởi vì
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float648 là một số float, một cột gồm các số nguyên thậm chí còn thiếu một giá trị được chuyển thành dtype dấu phẩy động [xem thêm]. gấu trúc cung cấp một mảng số nguyên nullable, có thể được sử dụng bằng cách yêu cầu dtype một cách rõ ràng
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float648
Ngoài ra, có thể sử dụng bí danh chuỗi
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6434 [lưu ý viết hoa
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6435]
Xem thêm
ngày giờ
Đối với các loại datetime64[ns],
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6436 đại diện cho các giá trị bị thiếu. Đây là một giá trị sentinel gốc giả có thể được đại diện bởi NumPy trong một dtype số ít [datetime64[ns]]. các đối tượng gấu trúc cung cấp khả năng tương thích giữa
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6436 và
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float648
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float644
Chèn dữ liệu bị thiếu
Bạn có thể chèn các giá trị bị thiếu bằng cách chỉ định cho các vùng chứa. Giá trị thiếu thực tế được sử dụng sẽ được chọn dựa trên dtype
Ví dụ: vùng chứa số sẽ luôn sử dụng
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float648 bất kể loại giá trị bị thiếu đã chọn
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float64
Tương tự như vậy, các thùng chứa datetime sẽ luôn sử dụng
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6436
Đối với các thùng chứa đối tượng, gấu trúc sẽ sử dụng giá trị đã cho
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object
Tính toán thiếu dữ liệu
Các giá trị bị thiếu lan truyền tự nhiên thông qua các phép toán số học giữa các đối tượng gấu trúc
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float643
Các số liệu thống kê mô tả và phương pháp tính toán được thảo luận trong [và được liệt kê và] đều được viết để giải thích cho dữ liệu bị thiếu. Ví dụ
Khi tổng hợp dữ liệu, các giá trị NA [thiếu] sẽ được coi là 0
Nếu dữ liệu đều là NA, kết quả sẽ là 0
Các phương thức tích lũy thích và bỏ qua các giá trị NA theo mặc định, nhưng giữ nguyên chúng trong các mảng kết quả. Để ghi đè hành vi này và bao gồm các giá trị NA, hãy sử dụng
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object
03
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object0
Tổng/sản lượng rỗng/nans
Cảnh báo
Hành vi này hiện là tiêu chuẩn kể từ v0. 22. 0 và phù hợp với mặc định trong
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object04; . Xem thêm
Tổng của Sê-ri hoặc cột trống hoặc toàn NA của DataFrame là 0
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False0
Sản phẩm của Sê-ri hoặc cột trống hoặc toàn NA của DataFrame là 1
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False1
Giá trị NA trong GroupBy
Các nhóm NA trong GroupBy sẽ tự động bị loại trừ. Hành vi này phù hợp với R, ví dụ
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False2
Xem phần nhóm để biết thêm thông tin
Làm sạch / điền dữ liệu bị thiếu
các đối tượng gấu trúc được trang bị nhiều phương pháp thao tác dữ liệu khác nhau để xử lý dữ liệu bị thiếu
Điền các giá trị còn thiếu. quả trám
có thể “điền” các giá trị NA bằng dữ liệu không phải NA theo một số cách mà chúng tôi minh họa
Thay thế NA bằng một giá trị vô hướng
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False3
Điền vào các khoảng trống về phía trước hoặc phía sau
Sử dụng các đối số điền giống như , chúng ta có thể truyền các giá trị không phải NA về phía trước hoặc phía sau
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False4
Hạn chế lượng đổ đầy
Nếu chúng tôi chỉ muốn các khoảng trống liên tiếp được lấp đầy tới một số điểm dữ liệu nhất định, chúng tôi có thể sử dụng từ khóa
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object06
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False5
Để nhắc nhở bạn, đây là các phương pháp điền có sẵn
Phương pháp
Hoạt động
đệm / điền vào
Điền giá trị về phía trước
bfill/chèn lấp
Điền ngược giá trị
Với dữ liệu chuỗi thời gian, việc sử dụng pad/fill là cực kỳ phổ biến để "giá trị đã biết cuối cùng" luôn có sẵn tại mọi thời điểm
tương đương với
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object08 và tương đương với
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False00
Điền vào một PandasObject
Bạn cũng có thể điền vào bằng cách sử dụng một lệnh hoặc Sê-ri có thể căn chỉnh. Các nhãn của lệnh hoặc chỉ mục của Sê-ri phải khớp với các cột của khung bạn muốn điền. Trường hợp sử dụng của việc này là điền vào DataFrame với giá trị trung bình của cột đó
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False6
Kết quả tương tự như trên, nhưng đang căn chỉnh giá trị 'điền' là Sê-ri trong trường hợp này
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False7
Bỏ nhãn trục với dữ liệu bị thiếu. dropna
Bạn có thể chỉ muốn loại trừ các nhãn khỏi tập dữ liệu đề cập đến dữ liệu bị thiếu. Để làm điều này, sử dụng
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False8
Tương đương có sẵn cho Sê-ri. Khung dữ liệu. dropna có nhiều tùy chọn hơn đáng kể so với Series. dropna, có thể được kiểm tra
nội suy
Theo mặc định, cả hai đối tượng Sê-ri và DataFrame đều thực hiện phép nội suy tuyến tính tại các điểm dữ liệu bị thiếu
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False9
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6440
Nội suy nhận biết chỉ mục có sẵn thông qua từ khóa
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False04
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6441
Đối với chỉ mục dấu phẩy động, hãy sử dụng
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False05
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6442
Bạn cũng có thể nội suy với DataFrame
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6443
Đối số
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False04 cung cấp quyền truy cập vào các phương pháp nội suy huyền ảo hơn. Nếu bạn đã cài đặt scipy, bạn có thể chuyển tên của quy trình nội suy 1-d cho
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False04. Bạn sẽ muốn tham khảo hướng dẫn tham khảo và nội suy scipy đầy đủ để biết chi tiết. Phương pháp nội suy thích hợp sẽ phụ thuộc vào loại dữ liệu bạn đang làm việc với
Nếu bạn đang xử lý một chuỗi thời gian đang phát triển với tốc độ ngày càng tăng, thì
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False
08 có thể phù hợpNếu bạn có các giá trị xấp xỉ hàm phân phối tích lũy, thì
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False
09 sẽ hoạt động tốtĐể lấp đầy các giá trị còn thiếu với mục tiêu vẽ đồ thị trơn tru, hãy xem xét
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False
10
Cảnh báo
Các phương pháp này yêu cầu
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False11
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6444
Khi nội suy thông qua phép xấp xỉ đa thức hoặc hàm spline, bạn cũng phải chỉ định bậc hoặc thứ tự của phép xấp xỉ
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6445
So sánh một số phương pháp
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6446
Một trường hợp sử dụng khác là nội suy tại các giá trị mới. Giả sử bạn có 100 quan sát từ một số phân phối. Và giả sử rằng bạn đặc biệt quan tâm đến những gì đang xảy ra ở giữa. Bạn có thể kết hợp các phương thức
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False12 và
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False13 của gấu trúc để nội suy ở các giá trị mới
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6447
giới hạn nội suy
Giống như các phương thức điền pandas khác, chấp nhận đối số từ khóa
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object06. Sử dụng đối số này để giới hạn số lượng giá trị
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float648 liên tiếp được điền kể từ lần quan sát hợp lệ cuối cùng
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6448
Theo mặc định, các giá trị
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float648 được điền theo hướng
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False18. Sử dụng tham số
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False19 để điền vào
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False20 hoặc từ hướng dẫn của
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False21
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6449
Theo mặc định, các giá trị
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float648 được điền cho dù chúng ở bên trong [được bao quanh bởi] các giá trị hợp lệ hiện có hay bên ngoài các giá trị hợp lệ hiện có. Tham số
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False23 hạn chế điền giá trị bên trong hoặc bên ngoài
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6460
Thay thế các giá trị chung
Thông thường, chúng tôi muốn thay thế các giá trị tùy ý bằng các giá trị khác
trong Sê-ri và trong DataFrame cung cấp một cách hiệu quả nhưng linh hoạt để thực hiện các thay thế đó
Đối với Sê-ri, bạn có thể thay thế một giá trị hoặc danh sách các giá trị bằng một giá trị khác
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6461
Bạn có thể thay thế một danh sách các giá trị bằng một danh sách các giá trị khác
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6462
Bạn cũng có thể chỉ định một lệnh ánh xạ
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6463
Đối với DataFrame, bạn có thể chỉ định các giá trị riêng lẻ theo cột
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6464
Thay vì thay thế bằng các giá trị đã chỉ định, bạn có thể coi tất cả các giá trị đã cho là thiếu và nội suy trên chúng
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6465
Thay thế chuỗi/biểu thức chính quy
Ghi chú
Chuỗi Python có tiền tố là ký tự
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False26 chẳng hạn như
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False27 được gọi là chuỗi "thô". Chúng có ngữ nghĩa khác nhau về dấu gạch chéo ngược so với các chuỗi không có tiền tố này. Dấu gạch chéo ngược trong chuỗi thô sẽ được hiểu là dấu gạch chéo ngược đã thoát, e. g. ,
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False28. Bạn nên nếu điều này là không rõ ràng
Thay thế cái '. ’ với
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float648 [str -> str]
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6466
Bây giờ hãy làm điều đó với một biểu thức chính quy loại bỏ khoảng trắng xung quanh [regex -> regex]
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6467
Thay thế một vài giá trị khác nhau [danh sách -> danh sách]
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6468
danh sách regex -> danh sách regex
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6469
Chỉ tìm kiếm trong cột
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False30 [dict -> dict]
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6480
Tương tự như ví dụ trước, nhưng thay vào đó hãy sử dụng biểu thức chính quy để tìm kiếm [dict của regex -> dict]
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6481
Bạn có thể chuyển các từ điển lồng nhau của các biểu thức chính quy sử dụng
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False31
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6482
Ngoài ra, bạn có thể chuyển từ điển lồng nhau như vậy
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6483
Bạn cũng có thể sử dụng nhóm đối sánh biểu thức chính quy khi thay thế [dict of regex -> dict of regex], điều này cũng hoạt động cho các danh sách
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6484
Bạn có thể chuyển một danh sách các biểu thức chính quy, trong đó những biểu thức phù hợp sẽ được thay thế bằng vô hướng [danh sách biểu thức chính quy -> biểu thức chính quy]
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6485
Tất cả các ví dụ về biểu thức chính quy cũng có thể được chuyển với đối số
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False32 làm đối số
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False33. Trong trường hợp này, đối số
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False34 phải được chuyển rõ ràng theo tên hoặc
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False33 phải là một từ điển lồng nhau. Ví dụ trước, trong trường hợp này, sau đó sẽ là
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6486
Điều này có thể thuận tiện nếu bạn không muốn vượt qua
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False31 mỗi khi bạn muốn sử dụng biểu thức chính quy
Ghi chú
Bất cứ nơi nào trong các ví dụ về
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False37 ở trên mà bạn thấy một biểu thức chính quy, một biểu thức chính quy được biên dịch cũng hợp lệ
thay thế số
tương tự như
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6487
Có thể thay thế nhiều hơn một giá trị bằng cách chuyển một danh sách
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6488
Bạn cũng có thể thao tác trên DataFrame tại chỗ
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6489
Thiếu quy tắc truyền dữ liệu và lập chỉ mục
Mặc dù gấu trúc hỗ trợ lưu trữ các mảng kiểu số nguyên và kiểu boolean, nhưng các kiểu này không có khả năng lưu trữ dữ liệu bị thiếu. Cho đến khi chúng tôi có thể chuyển sang sử dụng loại NA gốc trong NumPy, chúng tôi đã thiết lập một số "quy tắc truyền". Khi thao tác lập chỉ mục lại giới thiệu dữ liệu bị thiếu, Sê-ri sẽ được truyền theo các quy tắc được giới thiệu trong bảng bên dưới
loại dữ liệu
Truyền tới
số nguyên
trôi nổi
boolean
sự vật
trôi nổi
không có diễn viên
sự vật
không có diễn viên
Ví dụ
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6440
Thông thường, NumPy sẽ phàn nàn nếu bạn cố gắng sử dụng một mảng đối tượng [ngay cả khi nó chứa các giá trị boolean] thay vì một mảng boolean để lấy hoặc đặt các giá trị từ một ndarray [e. g. lựa chọn các giá trị dựa trên một số tiêu chí]. Nếu một vectơ boolean chứa NA, một ngoại lệ sẽ được tạo
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6441
Tuy nhiên, chúng có thể được điền vào bằng cách sử dụng và nó sẽ hoạt động tốt
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6442
pandas cung cấp một dtype số nguyên nullable, nhưng bạn phải yêu cầu nó một cách rõ ràng khi tạo chuỗi hoặc cột. Lưu ý rằng chúng tôi sử dụng chữ “I” viết hoa trong
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False41
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6443
Xem thêm
Thử nghiệm vô hướng In [21]: s = pd.Series[[1, 2, 3]]
In [22]: s.loc[0] = None
In [23]: s
Out[23]:
0 NaN
1 2.0
2 3.0
dtype: float64
9 để biểu thị các giá trị còn thiếu
Cảnh báo
Thực nghiệm. hành vi của
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 vẫn có thể thay đổi mà không cần cảnh báo
Mới trong phiên bản 1. 0. 0
Bắt đầu từ pandas 1. 0, một giá trị
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 thử nghiệm [singleton] có sẵn để biểu thị các giá trị vô hướng bị thiếu. Tại thời điểm này, nó được sử dụng trong số nguyên nullable, boolean và các kiểu dữ liệu làm chỉ báo giá trị bị thiếu.
Mục tiêu của
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 là cung cấp một chỉ báo “còn thiếu” có thể được sử dụng nhất quán trên các loại dữ liệu [thay vì
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6431,
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object1 hoặc
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False48 tùy thuộc vào loại dữ liệu]
Ví dụ: khi có các giá trị bị thiếu trong Sê-ri với dtype số nguyên nullable, nó sẽ sử dụng
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6444
Hiện tại, pandas chưa sử dụng các loại dữ liệu đó theo mặc định [khi tạo DataFrame hoặc Sê-ri hoặc khi đọc dữ liệu], vì vậy bạn cần chỉ định rõ ràng loại dtype. Một cách dễ dàng để chuyển đổi sang các dtypes đó được giải thích
Tuyên truyền trong các hoạt động số học và so sánh
Nói chung, các giá trị bị thiếu lan truyền trong các hoạt động liên quan đến
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43. Khi một trong các toán hạng không xác định, kết quả của hoạt động cũng không xác định
Ví dụ:
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 lan truyền trong các phép toán số học, tương tự như
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6431
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6445
Có một số trường hợp đặc biệt khi biết trước kết quả, ngay cả khi một trong các toán hạng là
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float649
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6446
Trong các hoạt động so sánh và bình đẳng,
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 cũng tuyên truyền. Điều này khác với hành vi của
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6431, trong đó so sánh với
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6431 luôn trả về
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False57
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6447
Để kiểm tra xem một giá trị có bằng
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 hay không, có thể sử dụng hàm
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6448
Một ngoại lệ đối với quy tắc lan truyền cơ bản này là các phép giảm [chẳng hạn như giá trị trung bình hoặc mức tối thiểu], trong đó gấu trúc mặc định bỏ qua các giá trị bị thiếu. Xem thêm
Các phép toán logic
Đối với các hoạt động logic,
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 tuân theo các quy tắc của logic ba giá trị [hoặc logic Kleene, tương tự như R, SQL và Julia]. Logic này có nghĩa là chỉ truyền các giá trị bị thiếu khi nó được yêu cầu về mặt logic
Ví dụ: đối với phép toán logic “or” [
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False61], nếu một trong các toán hạng là
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False62, thì chúng ta đã biết kết quả sẽ là
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False62, bất kể giá trị khác là gì [do đó, bất kể giá trị bị thiếu sẽ là
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False62 hay
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False57]. Trong trường hợp này,
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 không lan truyền
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6449
Mặt khác, nếu một trong các toán hạng là
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False57, kết quả sẽ phụ thuộc vào giá trị của toán hạng kia. Do đó, trong trường hợp này,
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 tuyên truyền
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float640
Hành vi của phép toán logic “và” [
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False69] có thể được bắt nguồn bằng cách sử dụng logic tương tự [hiện tại
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 sẽ không lan truyền nếu một trong các toán hạng đã là
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False57]
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float641
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float642
In [21]: s = pd.Series[[1, 2, 3]]
In [22]: s.loc[0] = None
In [23]: s
Out[23]:
0 NaN
1 2.0
2 3.0
dtype: float64
9 trong ngữ cảnh boolean
Vì giá trị thực của NA là không xác định nên việc chuyển đổi NA thành giá trị boolean là không rõ ràng. Sau đây gây ra một lỗi
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float643
Điều này cũng có nghĩa là không thể sử dụng
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 trong ngữ cảnh khi nó được đánh giá theo giá trị boolean, chẳng hạn như
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False74 trong đó
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False75 có thể có khả năng là
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43. Trong những trường hợp như vậy, can be used to check for
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 or
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False75 is
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 có thể tránh được, ví dụ bằng cách điền trước các giá trị còn thiếu
Tình huống tương tự xảy ra khi sử dụng các đối tượng Sê-ri hoặc DataFrame trong câu lệnh
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False81, xem
ufunc NumPy
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False82 thực hiện giao thức
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False83 của NumPy. Hầu hết các ufunc đều hoạt động với
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float649 và thường trả về
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float649
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float644
Cảnh báo
Hiện tại, các ufunc liên quan đến ndarray và
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float649 sẽ trả về một object-dtype chứa đầy các giá trị NA
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float645
Kiểu trả về ở đây có thể thay đổi để trả về một kiểu mảng khác trong tương lai
Xem thêm về ufunc
chuyển đổi
Nếu bạn có một DataFrame hoặc Sê-ri sử dụng các loại truyền thống có dữ liệu bị thiếu được biểu thị bằng cách sử dụng
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float6431, thì có các phương thức tiện lợi trong Sê-ri và trong DataFrame có thể chuyển đổi dữ liệu để sử dụng các dtypes mới hơn cho số nguyên, chuỗi và booleans được liệt kê. Điều này đặc biệt hữu ích sau khi đọc trong tập dữ liệu khi cho phép người đọc chẳng hạn như và suy ra các kiểu dữ liệu mặc định
Trong ví dụ này, trong khi kiểu chữ của tất cả các cột được thay đổi, chúng tôi hiển thị kết quả cho 10 cột đầu tiên