Làm thế nào để bạn thực hiện bootstrapping?

và trình bày hiệu quả kết quả thu được từ dữ liệu. Những phương pháp này rất quan trọng để đưa ra quyết định và dự đoán, cho dù đó là dự đoán nhu cầu của người tiêu dùng đối với sản phẩm, sử dụng khai thác văn bản để lọc email rác hoặc đưa ra quyết định theo thời gian thực trong ô tô tự lái 

Thống kê Bootstrapping được xác định

Thống kê Bootstrapping là một hình thức kiểm tra giả thuyết liên quan đến việc lấy mẫu lại một tập dữ liệu để tạo ra vô số mẫu mô phỏng. Những mẫu đó được sử dụng để tính toán sai số chuẩn, khoảng tin cậy và để kiểm tra giả thuyết. Cách tiếp cận này cho phép bạn tạo một mẫu chính xác hơn từ một tập dữ liệu nhỏ hơn so với phương pháp truyền thống.  

Hầu hết thời gian khi bạn tiến hành nghiên cứu, việc thu thập dữ liệu từ toàn bộ dân số là không thực tế. Điều này có thể là do hạn chế về ngân sách và/hoặc thời gian, trong số các yếu tố khác. Thay vào đó, một tập hợp con của dân số được lấy và thông tin chi tiết được thu thập từ tập hợp con đó để tìm hiểu thêm về dân số.  

Hình minh họa so sánh phương pháp thống kê truyền thống [trên] với phương pháp bootstrapping [dưới]. . Hình ảnh. Trist'n Joseph

Điều này có nghĩa là thông tin chính xác phù hợp có thể thu được nhanh chóng và tương đối rẻ từ một mẫu được lấy thích hợp. Tuy nhiên, nhiều yếu tố có thể ảnh hưởng đến việc một mẫu phản ánh dân số tốt như thế nào và do đó ảnh hưởng đến tính hợp lệ và độ tin cậy của các kết luận. Vì điều này, chúng ta hãy nói về số liệu thống kê bootstrapping.

Minh họa phương pháp lấy mẫu thống kê truyền thống. . Hình ảnh. Trist'n Joseph

 

Thống kê Bootstrapping là gì?

“Bootstrapping là một quy trình thống kê lấy mẫu lại một tập dữ liệu để tạo nhiều mẫu mô phỏng. Quá trình này cho phép tính toán sai số chuẩn, khoảng tin cậy và kiểm tra giả thuyết,” theo bài đăng trên số liệu thống kê khởi động của nhà thống kê Jim Forst.

Phương pháp bootstrapping là một phương pháp thay thế cực kỳ hữu ích cho phương pháp kiểm tra giả thuyết truyền thống, vì nó khá đơn giản và nó giảm thiểu một số cạm bẫy gặp phải trong phương pháp truyền thống.  

Suy luận thống kê thường dựa trên phân phối lấy mẫu và sai số chuẩn của đối tượng quan tâm. Cách tiếp cận truyền thống, hay cách tiếp cận mẫu lớn, lấy một mẫu có kích thước n từ tổng thể và mẫu đó được sử dụng để ước tính tổng thể để sau đó đưa ra kết luận . Trong thực tế, chỉ có một mẫu đã được quan sát.

“Bootstrapping là một quy trình thống kê lấy mẫu lại một tập dữ liệu để tạo ra nhiều mẫu mô phỏng. ”

Tuy nhiên, phân phối lấy mẫu là một tập hợp lý thuyết của tất cả các ước tính có thể có nếu tổng thể được lấy mẫu lại. Lý thuyết nói rằng, trong những điều kiện nhất định như cỡ mẫu lớn, phân phối lấy mẫu sẽ xấp xỉ bình thường và độ lệch chuẩn của phân phối sẽ bằng với sai số chuẩn. Nhưng điều gì xảy ra nếu cỡ mẫu không đủ lớn? . Điều này gây khó khăn cho việc xác định sai số chuẩn của ước tính và khó rút ra kết luận hợp lý từ dữ liệu

Thông tin thêm về Thống kê. Khoảng tin cậy. Giải thích

 

Thống kê Bootstrapping hoạt động như thế nào

Một minh họa về cách bootstrapping hoạt động. . Hình ảnh. Trist'n Joseph

Trong phương pháp bootstrapping, một mẫu có kích thước n được lấy từ dân số. Hãy gọi đây là mẫu S. Sau đó, thay vì sử dụng lý thuyết để xác định tất cả các ước tính có thể, phân phối lấy mẫu được tạo ra bằng cách lấy mẫu lại các quan sát với sự thay thế từ S m times, with each resampled set having n observations. Now, if sampled appropriately, S phải đại diện cho tổng thể. Do đó, bằng cách lấy mẫu lại S m lần có thay thế, sẽ như thể m samples were drawn from the original population, and the estimates derived would be representative of the theoretical distribution under the traditional approach. 

Việc tăng số lượng mẫu lại, m, sẽ không làm tăng lượng thông tin trong dữ liệu. Nghĩa là, lấy mẫu lại bộ ban đầu 100.000 lần không hữu ích hơn lấy mẫu lại 1.000 lần. Lượng thông tin trong tập hợp phụ thuộc vào kích thước mẫu, n, sẽ không đổi trong mỗi lần lấy mẫu lại. Khi đó, lợi ích của nhiều mẫu lại là để có được ước tính tốt hơn về phân phối lấy mẫu.

Giới thiệu về số liệu thống kê bootstrapping. . Băng hình. StatQuest với Josh Starmer

Thông tin thêm về Khoa học dữ liệu. Giải thích về quá trình Poisson và phân phối Poisson [Với các thiên thạch. ]

 

Ưu điểm của Thống kê Bootstrapping

So sánh các kết quả thu được từ cách tiếp cận truyền thống và cách tiếp cận bootstrapping. . Hình ảnh. Trist'n Joseph

Bây giờ chúng ta đã hiểu cách tiếp cận bootstrapping, cần lưu ý rằng các kết quả thu được về cơ bản giống với kết quả của phương pháp truyền thống. Ngoài ra, phương pháp bootstrapping sẽ luôn hoạt động vì nó không giả định bất kỳ phân phối dữ liệu cơ bản nào

Điều này trái ngược với cách tiếp cận truyền thống vốn giả định về mặt lý thuyết rằng dữ liệu được phân phối bình thường. Biết cách thức hoạt động của phương pháp bootstrapping, bạn có thể thắc mắc, liệu phương pháp bootstrapping có phụ thuộc quá nhiều vào dữ liệu quan sát được không? . Và vì điều này, thật hợp lý khi cho rằng một ngoại lệ sẽ làm sai lệch các ước tính từ các mẫu lại.

“Ưu điểm của bootstrapping là nó là một cách đơn giản để rút ra các ước tính về sai số chuẩn và khoảng tin cậy, đồng thời nó thuận tiện vì nó tránh được chi phí lặp lại thử nghiệm để lấy các nhóm dữ liệu được lấy mẫu khác. ”

Mặc dù điều này là đúng, nhưng nếu phương pháp truyền thống được xem xét, thì một ngoại lệ trong tập dữ liệu cũng sẽ làm sai lệch giá trị trung bình và làm tăng sai số chuẩn của ước tính. Mặc dù có thể hấp dẫn khi nghĩ rằng một ngoại lệ có thể xuất hiện nhiều lần trong dữ liệu được lấy mẫu lại và làm sai lệch kết quả và do đó, làm cho phương pháp truyền thống trở nên tốt hơn, phương pháp khởi động phụ thuộc nhiều vào dữ liệu như phương pháp truyền thống.  

“Ưu điểm của bootstrapping là nó là một cách đơn giản để lấy được các ước tính về sai số chuẩn và khoảng tin cậy, đồng thời nó thuận tiện vì nó tránh được chi phí lặp lại thử nghiệm để lấy các nhóm dữ liệu được lấy mẫu khác. Mặc dù không thể biết khoảng tin cậy thực sự cho hầu hết các vấn đề, nhưng bootstrapping nhất quán về mặt tiệm cận và chính xác hơn so với việc sử dụng các khoảng chuẩn thu được bằng cách sử dụng phương sai mẫu và giả định về tính quy tắc,” theo tác giả Graysen Cline trong book, Nonparametric Statistical Methods Using R.

Cả hai cách tiếp cận đều yêu cầu sử dụng các mẫu được rút ra thích hợp để suy luận về quần thể. Tuy nhiên, sự khác biệt lớn nhất giữa hai phương pháp này là cơ chế đằng sau việc ước tính phân phối lấy mẫu. Quy trình truyền thống yêu cầu người ta phải có thống kê kiểm tra thỏa mãn các giả định cụ thể để đạt được kết quả hợp lệ và điều này phần lớn phụ thuộc vào thiết kế thử nghiệm. Cách tiếp cận truyền thống cũng sử dụng lý thuyết để cho biết phân phối lấy mẫu sẽ như thế nào, nhưng kết quả sẽ thất bại nếu các giả định của lý thuyết không được đáp ứng

Mặt khác, phương pháp bootstrapping lấy dữ liệu mẫu ban đầu và sau đó lấy mẫu lại để tạo ra nhiều mẫu [mô phỏng]. Cách tiếp cận này không dựa vào lý thuyết vì có thể quan sát được phân phối lấy mẫu và bạn không phải lo lắng về bất kỳ giả định nào. Kỹ thuật này cho phép ước tính chính xác số liệu thống kê, điều này rất quan trọng khi sử dụng dữ liệu để đưa ra quyết định

Làm thế nào để tạo một mẫu bootstrap?

Lấy mẫu Bootstrap trong R .
Lấy mẫu lại dữ liệu với n lần thay thế
Tính toán thống kê mong muốn n lần để tạo phân phối thống kê ước tính
Xác định lỗi tiêu chuẩn/khoảng tin cậy cho thống kê bootstrapped từ bản phân phối bootstrapped

Bootstrapping với ví dụ là gì?

Khởi động là một thuật ngữ được sử dụng trong kinh doanh để chỉ quá trình chỉ sử dụng các nguồn lực hiện có, chẳng hạn như tiền tiết kiệm cá nhân, thiết bị máy tính cá nhân và không gian nhà để xe, để bắt đầu và phát triển một doanh nghiệp. . .

Bootstrapping là gì và nó hoạt động như thế nào?

Bootstrapping mô tả tình huống trong đó một doanh nhân thành lập công ty với ít vốn, dựa vào tiền chứ không phải đầu tư bên ngoài . Một cá nhân được cho là đang khởi nghiệp khi họ cố gắng thành lập và xây dựng một công ty từ nguồn tài chính cá nhân hoặc doanh thu hoạt động của công ty mới.

Một bản phân phối bootstrap được xây dựng như thế nào?

Để xây dựng phân phối bootstrap cho chiều cao trung bình, trước tiên chúng tôi sẽ chọn ngẫu nhiên một cá nhân từ mẫu đó và ghi lại chiều cao của họ. Sau đó, với cá nhân đó được đưa trở lại mẫu, chúng tôi sẽ chọn ngẫu nhiên một cá nhân thứ hai và ghi lại chiều cao của họ

Chủ Đề