Thống kê Python PDF
Mô-đun này cung cấp các chức năng để tính toán thống kê toán học của dữ liệu số (giá trị ____00) Show
Mô-đun này không nhằm mục đích trở thành đối thủ cạnh tranh với các thư viện của bên thứ ba như NumPy, SciPy hoặc các gói thống kê đầy đủ tính năng độc quyền nhằm vào các nhà thống kê chuyên nghiệp như Minitab, SAS và Matlab. Nó nhằm vào mức độ vẽ đồ thị và máy tính khoa học Trừ khi được ghi chú rõ ràng, các chức năng này hỗ trợ >>> round(geometric_mean([54, 24, 36]), 1) 36.01, >>> round(geometric_mean([54, 24, 36]), 1) 36.02, >>> round(geometric_mean([54, 24, 36]), 1) 36.03 và >>> round(geometric_mean([54, 24, 36]), 1) 36.04. Hành vi với các loại khác (dù trong tháp số hay không) hiện không được hỗ trợ. Các bộ sưu tập có nhiều loại cũng không được xác định và phụ thuộc vào việc triển khai. Nếu dữ liệu đầu vào của bạn bao gồm nhiều loại khác nhau, bạn có thể sử dụng >>> round(geometric_mean([54, 24, 36]), 1) 36.05 để đảm bảo kết quả nhất quán, chẳng hạn. >>> round(geometric_mean([54, 24, 36]), 1) 36.06 Một số bộ dữ liệu sử dụng giá trị >>> round(geometric_mean([54, 24, 36]), 1) 36.07 (không phải số) để biểu thị dữ liệu bị thiếu. Vì NaN có ngữ nghĩa so sánh bất thường nên chúng gây ra các hành vi đáng ngạc nhiên hoặc không xác định trong các hàm thống kê sắp xếp dữ liệu hoặc đếm số lần xuất hiện. Các chức năng bị ảnh hưởng là >>> round(geometric_mean([54, 24, 36]), 1) 36.08, >>> round(geometric_mean([54, 24, 36]), 1) 36.09, >>> round(geometric_mean([54, 24, 36]), 1) 36.000, >>> round(geometric_mean([54, 24, 36]), 1) 36.001, >>> round(geometric_mean([54, 24, 36]), 1) 36.002, >>> round(geometric_mean([54, 24, 36]), 1) 36.003 và >>> round(geometric_mean([54, 24, 36]), 1) 36.004. Các giá trị >>> round(geometric_mean([54, 24, 36]), 1) 36.07 nên được loại bỏ trước khi gọi các chức năng này >>> round(geometric_mean([54, 24, 36]), 1) 36.06 Trung bình và thước đo của vị trí trung tâm¶Các hàm này tính toán giá trị trung bình hoặc điển hình từ dân số hoặc mẫu >>> round(geometric_mean([54, 24, 36]), 1) 36.006 Trung bình số học (“trung bình”) của dữ liệu >>> round(geometric_mean([54, 24, 36]), 1) 36.007 Trung bình số học dấu chấm động, nhanh, với trọng số tùy chọn >>> round(geometric_mean([54, 24, 36]), 1) 36.008 Ý nghĩa hình học của dữ liệu >>> round(geometric_mean([54, 24, 36]), 1) 36.009 Điều hòa trung bình của dữ liệu >>> round(geometric_mean([54, 24, 36]), 1) 36.08 Trung vị (giá trị trung bình) của dữ liệu >>> round(geometric_mean([54, 24, 36]), 1) 36.09 Dữ liệu trung bình thấp >>> round(geometric_mean([54, 24, 36]), 1) 36.000 Dữ liệu trung bình cao >>> round(geometric_mean([54, 24, 36]), 1) 36.001 Trung bình, hoặc phân vị thứ 50, của dữ liệu được nhóm >>> round(geometric_mean([54, 24, 36]), 1) 36.002 Chế độ đơn (giá trị phổ biến nhất) của dữ liệu rời rạc hoặc danh nghĩa >>> round(geometric_mean([54, 24, 36]), 1) 36.003 Danh sách các chế độ (giá trị phổ biến nhất) của dữ liệu rời rạc hoặc danh nghĩa >>> round(geometric_mean([54, 24, 36]), 1) 36.004 Chia dữ liệu thành các khoảng có xác suất bằng nhau Các biện pháp lây lan¶Các hàm này tính toán mức độ sai lệch của tổng thể hoặc mẫu so với các giá trị điển hình hoặc trung bình >>> round(geometric_mean([54, 24, 36]), 1) 36.087 Độ lệch chuẩn dân số của dữ liệu >>> round(geometric_mean([54, 24, 36]), 1) 36.088 Phương sai dân số của dữ liệu >>> round(geometric_mean([54, 24, 36]), 1) 36.089 Độ lệch chuẩn mẫu của dữ liệu >>> round(geometric_mean([54, 24, 36]), 1) 36.010 Phương sai mẫu của dữ liệu Thống kê quan hệ giữa hai đầu vào¶Các hàm này tính toán số liệu thống kê về mối quan hệ giữa hai đầu vào >>> round(geometric_mean([54, 24, 36]), 1) 36.011 Hiệp phương sai mẫu cho hai biến >>> round(geometric_mean([54, 24, 36]), 1) 36.012 Hệ số tương quan của Pearson cho hai biến >>> round(geometric_mean([54, 24, 36]), 1) 36.013 Độ dốc và chặn cho hồi quy tuyến tính đơn giản Chi tiết chức năng¶Ghi chú. Các hàm không yêu cầu dữ liệu được cung cấp cho chúng phải được sắp xếp. Tuy nhiên, để thuận tiện cho việc đọc, hầu hết các ví dụ hiển thị trình tự được sắp xếp thống kê. nghĩa(dữ liệu) ¶Trả về giá trị trung bình cộng mẫu của dữ liệu có thể là một chuỗi hoặc có thể lặp lại Giá trị trung bình số học là tổng của dữ liệu chia cho số điểm dữ liệu. Nó thường được gọi là "trung bình", mặc dù nó chỉ là một trong nhiều trung bình toán học khác nhau. Nó là thước đo vị trí trung tâm của dữ liệu Nếu dữ liệu trống, >>> round(geometric_mean([54, 24, 36]), 1) 36.014 sẽ được nâng lên Một số ví dụ về việc sử dụng >>> round(geometric_mean([54, 24, 36]), 1) 36.06 Ghi chú Giá trị trung bình bị ảnh hưởng mạnh bởi các giá trị ngoại lệ và không nhất thiết phải là ví dụ điển hình của các điểm dữ liệu. Để có một thước đo xu hướng trung tâm mạnh mẽ hơn, mặc dù kém hiệu quả hơn, xem >>> round(geometric_mean([54, 24, 36]), 1) 36.08 Giá trị trung bình mẫu đưa ra ước tính không chệch về giá trị trung bình thực của tổng thể, do đó, khi lấy giá trị trung bình trên tất cả các mẫu có thể, >>> round(geometric_mean([54, 24, 36]), 1) 36.016 sẽ hội tụ về giá trị trung bình thực của toàn bộ tổng thể. Nếu dữ liệu đại diện cho toàn bộ dân số chứ không phải là một mẫu, thì >>> round(geometric_mean([54, 24, 36]), 1) 36.017 tương đương với việc tính trung bình dân số thực μthống kê. fmean(dữ liệu , trọng số=None)¶ Chuyển đổi dữ liệu thành số float và tính giá trị trung bình số học Hàm này chạy nhanh hơn hàm >>> round(geometric_mean([54, 24, 36]), 1) 36.006 và nó luôn trả về một giá trị >>> round(geometric_mean([54, 24, 36]), 1) 36.02. Dữ liệu có thể là một chuỗi hoặc lặp lại. Nếu tập dữ liệu đầu vào trống, hãy tăng >>> round(geometric_mean([54, 24, 36]), 1) 36.014 >>> round(geometric_mean([54, 24, 36]), 1) 36.03 Trọng số tùy chọn được hỗ trợ. Ví dụ, một giáo sư chỉ định điểm cho một khóa học theo trọng số bài kiểm tra là 20%, bài tập về nhà là 20%, bài kiểm tra giữa kỳ là 30% và bài kiểm tra cuối kỳ là 30%. >>> round(geometric_mean([54, 24, 36]), 1) 36.04 Nếu trọng lượng được cung cấp, nó phải có cùng độ dài với dữ liệu hoặc một >>> round(geometric_mean([54, 24, 36]), 1) 36.051 sẽ được nâng lên Mới trong phiên bản 3. 8 Đã thay đổi trong phiên bản 3. 11. Đã thêm hỗ trợ cho trọng lượng. thống kê. geometric_mean(dữ liệu) ¶Chuyển đổi dữ liệu thành số float và tính giá trị trung bình hình học Giá trị trung bình hình học biểu thị xu hướng trung tâm hoặc giá trị tiêu biểu của dữ liệu bằng cách sử dụng tích của các giá trị (trái ngược với giá trị trung bình số học sử dụng tổng của chúng) Tăng >>> round(geometric_mean([54, 24, 36]), 1) 36.014 nếu tập dữ liệu đầu vào trống, nếu nó chứa số 0 hoặc nếu nó chứa giá trị âm. Dữ liệu có thể là một chuỗi hoặc có thể lặp lại Không có nỗ lực đặc biệt nào được thực hiện để đạt được kết quả chính xác. (Tuy nhiên, điều này có thể thay đổi trong tương lai. ) >>> round(geometric_mean([54, 24, 36]), 1) 36.0 Mới trong phiên bản 3. 8 thống kê. harmonic_mean(dữ liệu , trọng số=None)¶Trả về giá trị trung bình điều hòa của dữ liệu, một chuỗi hoặc có thể lặp lại các số có giá trị thực. Nếu trọng số bị bỏ qua hoặc Không có, thì trọng số bằng nhau được giả định Giá trị trung bình điều hòa là nghịch đảo của số học >>> round(geometric_mean([54, 24, 36]), 1) 36.006 của các nghịch đảo của dữ liệu. Ví dụ, trung bình điều hòa của ba giá trị a, b và c sẽ tương đương với >>> round(geometric_mean([54, 24, 36]), 1) 36.054. Nếu một trong các giá trị bằng không, kết quả sẽ bằng không Trung bình điều hòa là một loại trung bình, thước đo vị trí trung tâm của dữ liệu. Nó thường thích hợp khi lấy trung bình các tỷ lệ hoặc tốc độ, ví dụ như tốc độ Giả sử ô tô đi 10 km với vận tốc 40 km/giờ, sau đó đi thêm 10 km nữa với vận tốc 60 km/giờ. Tốc độ trung bình là bao nhiêu? >>> round(geometric_mean([54, 24, 36]), 1) 36.00 Giả sử một ô tô đi 40 km/giờ trong 5 km và khi thông thoáng, tăng tốc lên 60 km/giờ trong 30 km còn lại của hành trình. Tốc độ trung bình là bao nhiêu? >>> round(geometric_mean([54, 24, 36]), 1) 36.08 >>> round(geometric_mean([54, 24, 36]), 1) 36.014 được nâng lên nếu dữ liệu trống, bất kỳ phần tử nào nhỏ hơn 0 hoặc nếu tổng trọng số không dương Thuật toán hiện tại bị loại sớm khi gặp số 0 trong đầu vào. Điều này có nghĩa là các đầu vào tiếp theo không được kiểm tra tính hợp lệ. (Hành vi này có thể thay đổi trong tương lai. ) Mới trong phiên bản 3. 6 Đã thay đổi trong phiên bản 3. 10. Đã thêm hỗ trợ cho trọng lượng. thống kê. trung bình(dữ liệu) ¶Trả về giá trị trung bình (giá trị ở giữa) của dữ liệu số, sử dụng phương thức phổ biến "giá trị trung bình của hai phần giữa". Nếu dữ liệu trống, >>> round(geometric_mean([54, 24, 36]), 1) 36.014 được nâng lên. dữ liệu có thể là một chuỗi hoặc lặp lại Giá trị trung vị là thước đo mạnh mẽ của vị trí trung tâm và ít bị ảnh hưởng bởi sự hiện diện của các giá trị ngoại lệ. Khi số lượng điểm dữ liệu là số lẻ, điểm dữ liệu ở giữa được trả về >>> round(geometric_mean([54, 24, 36]), 1) 36.01 Khi số điểm dữ liệu là số chẵn, giá trị trung bình được nội suy bằng cách lấy giá trị trung bình của hai giá trị ở giữa >>> round(geometric_mean([54, 24, 36]), 1) 36.05 Điều này phù hợp khi dữ liệu của bạn rời rạc và bạn không ngại rằng trung vị có thể không phải là một điểm dữ liệu thực tế Nếu dữ liệu là thứ tự (hỗ trợ hoạt động đặt hàng) nhưng không phải là số (không hỗ trợ phép cộng), hãy cân nhắc sử dụng >>> round(geometric_mean([54, 24, 36]), 1) 36.09 hoặc >>> round(geometric_mean([54, 24, 36]), 1) 36.000 để thay thếthống kê. median_low(dữ liệu) ¶ Trả về giá trị trung bình thấp của dữ liệu số. Nếu dữ liệu trống, >>> round(geometric_mean([54, 24, 36]), 1) 36.014 được nâng lên. dữ liệu có thể là một chuỗi hoặc lặp lại Trung bình thấp luôn là thành viên của tập dữ liệu. Khi số điểm dữ liệu là số lẻ, giá trị ở giữa được trả về. Khi nó chẵn, giá trị nhỏ hơn trong hai giá trị ở giữa được trả về >>> round(geometric_mean([54, 24, 36]), 1) 36.09 Sử dụng giá trị trung bình thấp khi dữ liệu của bạn rời rạc và bạn muốn giá trị trung bình là một điểm dữ liệu thực tế hơn là được nội suy thống kê. median_high(dữ liệu) ¶Trả lại dữ liệu trung bình cao. Nếu dữ liệu trống, >>> round(geometric_mean([54, 24, 36]), 1) 36.014 được nâng lên. dữ liệu có thể là một chuỗi hoặc lặp lại Trung bình cao luôn là thành viên của tập dữ liệu. Khi số điểm dữ liệu là số lẻ, giá trị ở giữa được trả về. Khi nó chẵn, giá trị lớn hơn trong hai giá trị ở giữa được trả về >>> round(geometric_mean([54, 24, 36]), 1) 36.060 Sử dụng giá trị trung bình cao khi dữ liệu của bạn rời rạc và bạn thích giá trị trung bình là một điểm dữ liệu thực tế hơn là được nội suy thống kê. median_grouped(dữ liệu , khoảng=1)¶Trả về giá trị trung bình của dữ liệu liên tục được nhóm, được tính là phân vị thứ 50, sử dụng phép nội suy. Nếu dữ liệu trống, >>> round(geometric_mean([54, 24, 36]), 1) 36.014 được nâng lên. dữ liệu có thể là một chuỗi hoặc lặp lại >>> round(geometric_mean([54, 24, 36]), 1) 36.061 Trong ví dụ sau, dữ liệu được làm tròn sao cho mỗi giá trị đại diện cho điểm giữa của các lớp dữ liệu, e. g. 1 là trung điểm của lớp 0. 5–1. 5, 2 là trung điểm của 1. 5–2. 5, 3 là trung điểm của 2. 5–3. 5, v.v. Với dữ liệu đã cho, giá trị trung bình rơi vào đâu đó trong lớp 3. 5–4. 5, và nội suy được sử dụng để ước tính nó >>> round(geometric_mean([54, 24, 36]), 1) 36.062 Khoảng thời gian đối số tùy chọn đại diện cho khoảng thời gian của lớp và mặc định là 1. Thay đổi khoảng cách tự nhiên sẽ thay đổi phép nội suy >>> round(geometric_mean([54, 24, 36]), 1) 36.063 Hàm này không kiểm tra xem các điểm dữ liệu có cách nhau ít nhất một khoảng hay không Chi tiết triển khai CPython. Trong một số trường hợp, >>> round(geometric_mean([54, 24, 36]), 1) 36.001 có thể buộc các điểm dữ liệu thả nổi. Hành vi này có thể sẽ thay đổi trong tương lai Xem thêm
Trả về điểm dữ liệu phổ biến nhất từ dữ liệu rời rạc hoặc danh nghĩa. Chế độ (khi nó tồn tại) là giá trị điển hình nhất và dùng làm thước đo vị trí trung tâm Nếu có nhiều chế độ có cùng tần số, hãy trả về chế độ đầu tiên gặp phải trong dữ liệu. Thay vào đó, nếu mong muốn nhỏ nhất hoặc lớn nhất trong số đó, hãy sử dụng >>> round(geometric_mean([54, 24, 36]), 1) 36.093 hoặc >>> round(geometric_mean([54, 24, 36]), 1) 36.094. Nếu dữ liệu đầu vào trống, >>> round(geometric_mean([54, 24, 36]), 1) 36.014 được nâng lên >>> round(geometric_mean([54, 24, 36]), 1) 36.096 giả sử dữ liệu rời rạc và trả về một giá trị. Đây là cách xử lý tiêu chuẩn của chế độ thường được dạy trong trường học >>> round(geometric_mean([54, 24, 36]), 1) 36.064 Chế độ này độc đáo ở chỗ nó là thống kê duy nhất trong gói này cũng áp dụng cho dữ liệu danh nghĩa (không phải số) >>> round(geometric_mean([54, 24, 36]), 1) 36.065 Đã thay đổi trong phiên bản 3. 8. Giờ đây, xử lý các bộ dữ liệu đa phương thức bằng cách trả về chế độ đầu tiên gặp phải. Trước đây, nó đã tăng >>> round(geometric_mean([54, 24, 36]), 1) 36.014 khi tìm thấy nhiều hơn một chế độ. thống kê. đa chế độ(dữ liệu) ¶ Trả về danh sách các giá trị xuất hiện thường xuyên nhất theo thứ tự chúng được bắt gặp lần đầu tiên trong dữ liệu. Sẽ trả về nhiều kết quả nếu có nhiều chế độ hoặc danh sách trống nếu dữ liệu trống >>> round(geometric_mean([54, 24, 36]), 1) 36.066 Mới trong phiên bản 3. 8 thống kê. pstdev(dữ liệu , mu=None)¶Trả về độ lệch chuẩn tổng thể (căn bậc hai của phương sai tổng thể). Xem >>> round(geometric_mean([54, 24, 36]), 1) 36.088 để biết các đối số và các chi tiết khác >>> round(geometric_mean([54, 24, 36]), 1) 36.067thống kê. phương sai(dữ liệu , mu=None)¶ Trả về phương sai tổng thể của dữ liệu, một chuỗi không trống hoặc có thể lặp lại các số có giá trị thực. Phương sai, hay thời điểm thứ hai về giá trị trung bình, là thước đo độ biến thiên (lây lan hoặc phân tán) của dữ liệu. Phương sai lớn cho thấy dữ liệu được trải ra; Nếu đối số thứ hai tùy chọn mu được đưa ra, thì đó thường là giá trị trung bình của dữ liệu. Nó cũng có thể được sử dụng để tính thời điểm thứ hai xung quanh một điểm không phải là giá trị trung bình. Nếu thiếu hoặc >>> round(geometric_mean([54, 24, 36]), 1) 36.099 (mặc định) thì tự động tính trung bình cộng Sử dụng hàm này để tính phương sai từ toàn bộ tổng thể. Để ước tính phương sai từ một mẫu, hàm >>> round(geometric_mean([54, 24, 36]), 1) 36.010 thường là lựa chọn tốt hơn Tăng >>> round(geometric_mean([54, 24, 36]), 1) 36.014 nếu dữ liệu trống ví dụ >>> round(geometric_mean([54, 24, 36]), 1) 36.068 Nếu bạn đã tính giá trị trung bình của dữ liệu, bạn có thể chuyển nó làm đối số thứ hai tùy chọn mu để tránh tính toán lại >>> round(geometric_mean([54, 24, 36]), 1) 36.069 Số thập phân và phân số được hỗ trợ >>> round(geometric_mean([54, 24, 36]), 1) 36.030 Ghi chú Khi được gọi với toàn bộ dân số, điều này mang lại phương sai dân số σ². Thay vào đó, khi được gọi trên một mẫu, đây là phương sai mẫu sai lệch s², còn được gọi là phương sai với N bậc tự do Nếu bằng cách nào đó bạn biết trung bình tổng thể thực μ, bạn có thể sử dụng hàm này để tính toán phương sai của một mẫu, lấy trung bình dân số đã biết làm đối số thứ hai. Với điều kiện các điểm dữ liệu là một mẫu ngẫu nhiên của dân số, kết quả sẽ là ước tính không thiên vị về phương sai dân số thống kê. stdev(dữ liệu , xbar=None)¶Trả về độ lệch chuẩn mẫu (căn bậc hai của phương sai mẫu). Xem >>> round(geometric_mean([54, 24, 36]), 1) 36.010 để biết các đối số và các chi tiết khác >>> round(geometric_mean([54, 24, 36]), 1) 36.031thống kê. phương sai(dữ liệu , xbar=None)¶ Trả về phương sai mẫu của dữ liệu, có thể lặp lại ít nhất hai số có giá trị thực. Phương sai, hay thời điểm thứ hai về giá trị trung bình, là thước đo độ biến thiên (lây lan hoặc phân tán) của dữ liệu. Phương sai lớn cho thấy dữ liệu được trải ra; Nếu đối số thứ hai tùy chọn xbar được đưa ra, thì đó phải là giá trị trung bình của dữ liệu. Nếu nó bị thiếu hoặc >>> round(geometric_mean([54, 24, 36]), 1) 36.099 (mặc định), giá trị trung bình sẽ được tính tự động Sử dụng chức năng này khi dữ liệu của bạn là một mẫu từ dân số. Để tính phương sai từ toàn bộ tổng thể, xem >>> round(geometric_mean([54, 24, 36]), 1) 36.088 Tăng >>> round(geometric_mean([54, 24, 36]), 1) 36.014 nếu dữ liệu có ít hơn hai giá trị ví dụ >>> round(geometric_mean([54, 24, 36]), 1) 36.032 Nếu bạn đã tính giá trị trung bình của dữ liệu, bạn có thể chuyển nó làm đối số thứ hai tùy chọn xbar để tránh tính toán lại >>> round(geometric_mean([54, 24, 36]), 1) 36.033 Chức năng này không cố gắng xác minh rằng bạn đã vượt qua giá trị trung bình thực tế là xbar. Sử dụng các giá trị tùy ý cho xbar có thể dẫn đến kết quả không hợp lệ hoặc không thể Giá trị thập phân và phân số được hỗ trợ >>> round(geometric_mean([54, 24, 36]), 1) 36.034 Ghi chú Đây là phương sai mẫu s² với hiệu chỉnh Bessel, hay còn gọi là phương sai với N-1 bậc tự do. Với điều kiện là các điểm dữ liệu là đại diện (e. g. độc lập và được phân phối giống hệt nhau), kết quả phải là ước tính không chệch về phương sai dân số thực Nếu bằng cách nào đó bạn biết được giá trị trung bình của dân số thực μ, bạn nên chuyển nó cho hàm >>> round(geometric_mean([54, 24, 36]), 1) 36.088 làm tham số mu để lấy phương sai của một mẫuthống kê. phân vị(dữ liệu , *, n=4, method='exclusive')¶ Chia dữ liệu thành n khoảng thời gian liên tục với xác suất bằng nhau. Trả về danh sách các điểm cắt >>> round(geometric_mean([54, 24, 36]), 1) 36.0607 ngăn cách các khoảng Đặt n thành 4 cho tứ phân vị (mặc định). Đặt n thành 10 cho thập phân vị. Đặt n thành 100 cho phần trăm cung cấp 99 điểm cắt tách dữ liệu thành 100 nhóm có kích thước bằng nhau. Tăng >>> round(geometric_mean([54, 24, 36]), 1) 36.014 nếu n không phải là ít nhất 1 Dữ liệu có thể là bất kỳ lần lặp nào chứa dữ liệu mẫu. Để có kết quả có ý nghĩa, số lượng điểm dữ liệu trong dữ liệu phải lớn hơn n. Tăng >>> round(geometric_mean([54, 24, 36]), 1) 36.014 nếu không có ít nhất hai điểm dữ liệu Các điểm cắt được nội suy tuyến tính từ hai điểm dữ liệu gần nhất. Ví dụ: nếu điểm cắt nằm ở một phần ba khoảng cách giữa hai giá trị mẫu, >>> round(geometric_mean([54, 24, 36]), 1) 36.0610 và >>> round(geometric_mean([54, 24, 36]), 1) 36.0611, thì điểm cắt sẽ đánh giá bằng >>> round(geometric_mean([54, 24, 36]), 1) 36.0612 Phương pháp tính toán lượng tử có thể khác nhau tùy thuộc vào việc dữ liệu bao gồm hay loại trừ các giá trị thấp nhất và cao nhất có thể có trong tổng thể Phương pháp mặc định là "độc quyền" và được sử dụng cho dữ liệu được lấy mẫu từ một tập hợp có thể có nhiều giá trị cực trị hơn giá trị được tìm thấy trong các mẫu. Phần dân số nằm dưới điểm thứ i trong số m điểm dữ liệu được sắp xếp được tính là >>> round(geometric_mean([54, 24, 36]), 1) 36.0613. Đưa ra chín giá trị mẫu, phương thức sắp xếp chúng và gán các phần trăm sau. 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% Đặt phương thức thành "bao gồm" được sử dụng để mô tả dữ liệu tổng thể hoặc cho các mẫu được biết là bao gồm các giá trị cực đoan nhất từ tổng thể. Giá trị tối thiểu trong dữ liệu được coi là phân vị thứ 0 và giá trị tối đa được coi là phân vị thứ 100. Phần dân số nằm dưới điểm thứ i trong số m điểm dữ liệu được sắp xếp được tính là >>> round(geometric_mean([54, 24, 36]), 1) 36.0614. Đưa ra 11 giá trị mẫu, phương thức sắp xếp chúng và gán các phần trăm sau. 0%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100% >>> round(geometric_mean([54, 24, 36]), 1) 36.035 Mới trong phiên bản 3. 8 thống kê. hiệp phương sai(x , y, /)¶Trả về hiệp phương sai mẫu của hai đầu vào x và y. Hiệp phương sai là thước đo độ biến thiên chung của hai yếu tố đầu vào Cả hai đầu vào phải có cùng độ dài (không nhỏ hơn hai), nếu không thì >>> round(geometric_mean([54, 24, 36]), 1) 36.014 được nâng lên ví dụ >>> round(geometric_mean([54, 24, 36]), 1) 36.036 Mới trong phiên bản 3. 10 thống kê. mối tương quan(x , y, /)¶Trả về hệ số tương quan Pearson cho hai đầu vào. Hệ số tương quan Pearson r nhận giá trị từ -1 đến +1. Nó đo cường độ và hướng của mối quan hệ tuyến tính, trong đó +1 có nghĩa là mối quan hệ tuyến tính tích cực, rất mạnh, -1 rất mạnh, mối quan hệ tuyến tính tiêu cực và 0 không có mối quan hệ tuyến tính. Cả hai đầu vào phải có cùng độ dài (không ít hơn hai) và không cần phải là hằng số, nếu không thì >>> round(geometric_mean([54, 24, 36]), 1) 36.014 sẽ tăng lên ví dụ >>> round(geometric_mean([54, 24, 36]), 1) 36.037 Mới trong phiên bản 3. 10 thống kê. hồi quy tuyến tính(x , y, /, *, proportional=False)¶Trả về hệ số góc và hệ số chặn của các tham số hồi quy tuyến tính đơn giản được ước tính bằng bình phương nhỏ nhất thông thường. Hồi quy tuyến tính đơn giản mô tả mối quan hệ giữa biến độc lập x và biến phụ thuộc y theo hàm tuyến tính này
trong đó >>> round(geometric_mean([54, 24, 36]), 1) 36.0617 và >>> round(geometric_mean([54, 24, 36]), 1) 36.0618 là các tham số hồi quy được ước tính và >>> round(geometric_mean([54, 24, 36]), 1) 36.0619 biểu thị tính biến thiên của dữ liệu không được giải thích bằng hồi quy tuyến tính (nó bằng với chênh lệch giữa giá trị dự đoán và giá trị thực tế của biến phụ thuộc) Cả hai đầu vào phải có cùng độ dài (không ít hơn hai) và biến độc lập x không thể là hằng số; Ví dụ: chúng ta có thể sử dụng ngày phát hành của các bộ phim Monty Python để dự đoán số lượng tích lũy các bộ phim Monty Python sẽ được sản xuất vào năm 2019 với giả định rằng chúng đã giữ đúng tốc độ. >>> round(geometric_mean([54, 24, 36]), 1) 36.038 Nếu tỷ lệ là đúng, biến độc lập x và biến phụ thuộc y được coi là tỷ lệ thuận. Dữ liệu khớp với một đường thẳng đi qua gốc tọa độ. Vì phần chặn sẽ luôn là 0. 0, hàm tuyến tính cơ bản đơn giản hóa thành
Mới trong phiên bản 3. 10 Đã thay đổi trong phiên bản 3. 11. Đã thêm hỗ trợ cho tỷ lệ. Ngoại lệ¶Một ngoại lệ duy nhất được xác định ngoại lệ thống kê. Lỗi thống kê ¶Phân lớp của >>> round(geometric_mean([54, 24, 36]), 1) 36.051 cho các trường hợp ngoại lệ liên quan đến thống kê >>> round(geometric_mean([54, 24, 36]), 1) 36.0 622 đối tượng¶>>> round(geometric_mean([54, 24, 36]), 1) 36.0622 là một công cụ để tạo và thao tác phân phối bình thường của một biến ngẫu nhiên. Đây là một lớp coi giá trị trung bình và độ lệch chuẩn của các phép đo dữ liệu là một thực thể duy nhất Phân phối chuẩn phát sinh từ Định lý giới hạn trung tâm và có nhiều ứng dụng trong thống kê thống kê lớp . NormalDist(mu=0. 0 , sigma=1. 0) ¶Trả về một đối tượng NormalDist mới trong đó mu đại diện cho giá trị trung bình số học và sigma đại diện cho độ lệch chuẩn Nếu sigma là tiêu cực, tăng >>> round(geometric_mean([54, 24, 36]), 1) 36.014nghĩa ¶ Thuộc tính chỉ đọc cho giá trị trung bình số học của phân phối chuẩn trung vị ¶Thuộc tính chỉ đọc cho trung bình của phân phối chuẩn chế độ ¶Thuộc tính chỉ đọc cho chế độ phân phối bình thường stdev ¶Thuộc tính chỉ đọc cho độ lệch chuẩn của phân phối chuẩn phương sai ¶Thuộc tính chỉ đọc cho phương sai của phân phối chuẩn. Bằng bình phương độ lệch chuẩn phương pháp phân loại từ_samples(dữ liệu)¶Tạo một phiên bản phân phối bình thường với các tham số mu và sigma được ước tính từ dữ liệu bằng cách sử dụng >>> round(geometric_mean([54, 24, 36]), 1) 36.007 và >>> round(geometric_mean([54, 24, 36]), 1) 36.089 Dữ liệu có thể là bất kỳ có thể lặp lại nào và phải bao gồm các giá trị có thể được chuyển đổi thành loại >>> round(geometric_mean([54, 24, 36]), 1) 36.02. Nếu dữ liệu không chứa ít nhất hai phần tử, hãy tăng >>> round(geometric_mean([54, 24, 36]), 1) 36.014 vì cần ít nhất một điểm để ước tính giá trị trung tâm và ít nhất hai điểm để ước tính độ phân tán. mẫu(n , *, seed=None)¶ Tạo n mẫu ngẫu nhiên cho một giá trị trung bình và độ lệch chuẩn nhất định. Trả về một >>> round(geometric_mean([54, 24, 36]), 1) 36.0629 của >>> round(geometric_mean([54, 24, 36]), 1) 36.02 giá trị Nếu hạt giống được đưa ra, hãy tạo một phiên bản mới của trình tạo số ngẫu nhiên cơ bản. Điều này hữu ích để tạo các kết quả có thể lặp lại, ngay cả trong ngữ cảnh đa luồng pdf(x) ¶Sử dụng hàm mật độ xác suất (pdf), tính khả năng tương đối mà một biến ngẫu nhiên X sẽ ở gần giá trị x đã cho. Về mặt toán học, đó là giới hạn của tỷ lệ >>> round(geometric_mean([54, 24, 36]), 1) 36.0631 khi dx tiến dần đến 0 Khả năng tương đối được tính bằng xác suất của một mẫu xuất hiện trong phạm vi hẹp chia cho chiều rộng của phạm vi (do đó có từ “mật độ”). Vì khả năng có liên quan đến các điểm khác, nên giá trị của nó có thể lớn hơn >>> round(geometric_mean([54, 24, 36]), 1) 36.0632cdf(x) ¶ Sử dụng hàm phân phối tích lũy (cdf), tính xác suất mà một biến ngẫu nhiên X sẽ nhỏ hơn hoặc bằng x. Về mặt toán học, nó được viết là >>> round(geometric_mean([54, 24, 36]), 1) 36.0633inv_cdf(p) ¶ Tính toán hàm phân phối tích lũy nghịch đảo, còn được gọi là hàm lượng tử hoặc hàm điểm phần trăm. Về mặt toán học, nó được viết là >>> round(geometric_mean([54, 24, 36]), 1) 36.0634 Tìm giá trị x của biến ngẫu nhiên X sao cho xác suất biến đó nhỏ hơn hoặc bằng giá trị đó bằng xác suất p đã cho chồng chéo(khác) ¶Đo lường sự thỏa thuận giữa hai phân phối xác suất bình thường. Trả về một giá trị giữa 0. 0 và 1. 0 đưa ra vùng chồng lấp cho hai hàm mật độ xác suất phân vị(n=4)¶Chia phân phối chuẩn thành n khoảng liên tục với xác suất bằng nhau. Trả về danh sách (n - 1) điểm cắt ngăn cách các khoảng Đặt n thành 4 cho tứ phân vị (mặc định). Đặt n thành 10 cho thập phân vị. Đặt n thành 100 cho phần trăm cung cấp 99 điểm cắt phân tách phân phối chuẩn thành 100 nhóm có kích thước bằng nhau zscore(x) ¶Tính Điểm chuẩn mô tả x theo số độ lệch chuẩn trên hoặc dưới giá trị trung bình của phân phối chuẩn. >>> round(geometric_mean([54, 24, 36]), 1) 36.0635 Mới trong phiên bản 3. 9 Phiên bản của >>> round(geometric_mean([54, 24, 36]), 1) 36.0622 hỗ trợ cộng, trừ, nhân và chia cho một hằng số. Các hoạt động này được sử dụng để dịch và chia tỷ lệ. Ví dụ >>> round(geometric_mean([54, 24, 36]), 1) 36.039 Chia một hằng số cho một thể hiện của >>> round(geometric_mean([54, 24, 36]), 1) 36.0622 không được hỗ trợ vì kết quả sẽ không được phân phối bình thường Vì các phân phối chuẩn phát sinh từ hiệu ứng cộng của các biến độc lập, nên có thể cộng và trừ hai biến ngẫu nhiên phân phối chuẩn độc lập được biểu diễn dưới dạng các thể hiện của >>> round(geometric_mean([54, 24, 36]), 1) 36.0622. Ví dụ >>> round(geometric_mean([54, 24, 36]), 1) 36.040 Mới trong phiên bản 3. 8 >>> round(geometric_mean([54, 24, 36]), 1) 36.0 622 Ví dụ và Công thức¶>>> round(geometric_mean([54, 24, 36]), 1) 36.0622 dễ dàng giải các bài toán xác suất kinh điển Ví dụ: dữ liệu lịch sử cho các kỳ thi SAT cho thấy điểm số được phân phối chuẩn với giá trị trung bình là 1060 và độ lệch chuẩn là 195, hãy xác định tỷ lệ phần trăm học sinh có điểm kiểm tra từ 1100 đến 1200, sau khi làm tròn đến số nguyên gần nhất >>> round(geometric_mean([54, 24, 36]), 1) 36.041 Tìm tứ phân vị và thập phân vị cho điểm SAT >>> round(geometric_mean([54, 24, 36]), 1) 36.042 Để ước tính phân phối cho một mô hình không dễ giải quyết bằng phân tích, >>> round(geometric_mean([54, 24, 36]), 1) 36.0622 có thể tạo các mẫu đầu vào cho mô phỏng Monte Carlo >>> round(geometric_mean([54, 24, 36]), 1) 36.043 Phân phối chuẩn có thể được sử dụng để tính gần đúng phân phối Nhị thức khi cỡ mẫu lớn và khi xác suất thử nghiệm thành công là gần 50%. Ví dụ: một hội nghị nguồn mở có 750 người tham dự và hai phòng có sức chứa 500 người. Có một cuộc nói chuyện về Python và một cuộc nói chuyện khác về Ruby. Trong các hội nghị trước, 65% người tham dự thích nghe các cuộc nói chuyện về Python. Giả sử sở thích của dân số không thay đổi, thì xác suất phòng Python sẽ nằm trong giới hạn sức chứa của nó là bao nhiêu? >>> round(geometric_mean([54, 24, 36]), 1) 36.044 Phân phối bình thường thường phát sinh trong các vấn đề học máy Wikipedia có một ví dụ hay về Trình phân loại Naive Bayesian. Thách thức là dự đoán giới tính của một người từ phép đo các đặc điểm phân bố bình thường bao gồm chiều cao, cân nặng và kích thước bàn chân Chúng tôi được cung cấp một tập dữ liệu đào tạo với các phép đo cho tám người. Các phép đo được giả định là phân phối bình thường, vì vậy chúng tôi tóm tắt dữ liệu bằng >>> round(geometric_mean([54, 24, 36]), 1) 36.0622 >>> round(geometric_mean([54, 24, 36]), 1) 36.045 Tiếp theo, chúng tôi gặp một người mới có các phép đo tính năng được biết nhưng không biết giới tính >>> round(geometric_mean([54, 24, 36]), 1) 36.046 Bắt đầu với xác suất trước đó là 50% là nam hoặc nữ, chúng tôi tính toán hậu quả là lần trước tích của các khả năng đối với các phép đo đặc điểm cho giới tính >>> round(geometric_mean([54, 24, 36]), 1) 36.047 Dự đoán cuối cùng thuộc về hậu thế lớn nhất. Điều này được gọi là tối đa một hậu thế hoặc MAP Python có thể được sử dụng để thống kê không?Thống kê của Python là một thư viện Python tích hợp dành cho thống kê mô tả . Bạn có thể sử dụng nó nếu bộ dữ liệu của bạn không quá lớn hoặc nếu bạn không thể dựa vào việc nhập các thư viện khác. NumPy là thư viện của bên thứ ba dành cho tính toán số, được tối ưu hóa để làm việc với các mảng đơn và đa chiều.
5 loại thống kê là gì?Các loại thống kê trong toán học . đo tần số Đo độ phân tán Đo lường xu hướng trung tâm thước đo vị trí 4 yếu tố cơ bản của thống kê là gì?Cỡ mẫu, các biến bắt buộc, công cụ tóm tắt bằng số và kết luận là bốn yếu tố của một bài toán thống kê mô tả.
Làm cách nào để sử dụng mô-đun thống kê trong Python?To use statistics module functions, you first have to import the functions with the line from statistics import |