Khởi động trong khoa học dữ liệu

Có một số cách chúng ta có thể gặp vấn đề bằng cách sử dụng các phương pháp thống kê tham số và phi tham số truyền thống. Ví dụ. kích thước mẫu của chúng tôi có thể quá nhỏ để định lý giới hạn trung tâm chắc chắn rằng các phương tiện mẫu được phân phối bình thường, vì vậy các giới hạn tin cậy được tính toán theo kiểu cổ điển có thể không chính xác. Chúng tôi không thể muốn sử dụng các thử nghiệm phi tham số có hiệu suất thấp. Chúng tôi có thể quan tâm đến một hệ thống thống kê mà phân phối lý thuyết cơ bản không được xác định. Nếu không có phân phối, chúng ta không thể tính toán khoảng tin cậy, giá trị p hoặc giá trị tới giới hạn

Các bài viết liên quan

  • Thu thập dữ liệu trong nghiên cứu
  • Resampling[Lấy lại mẫu] dữ liệu không cân bằng
  • Đường cong ROC[Receiver Operator Characteristic]
  • Thống kê Cohen's Kappa
  • Confusion Matrix là gì?
  • Kiểm tra giả thuyết[Hypothesis Testing] trong R
  • Google Biểu mẫu. hướng dẫn chi tiết
  • Cách chèn code html vào wordpress
  • All-pairs Testing trong kiểm thử phần mềm
  • Kiểm tra lỗi bảo mật Server-side Template Injection

Phương pháp lấy mẫu lại là một trong những giải pháp cho những vấn đề này và chúng có một số ưu điểm. Chúng linh hoạt và trực quan. Chúng thường có sức mạnh lớn hơn các phương pháp không tham số, và chúng tiếp cận và đôi khi vượt quá sức mạnh của các phương pháp tham số. Hai trong số chúng [bootstrap, jackknife] không đưa ra giả định nào về định dạng của mẹ phân phối, ngoại trừ việc mẫu là phản ánh tốt của phân phối đó, điều này sẽ xảy ra nếu bạn thu thập một mẫu ngẫu nhiên thông tin . Hai điều này cũng có thể được áp dụng cho bất kỳ vấn đề nào, ngay cả khi không có phân phối lý thuyết của thống kê. Chúng ít nhạy cảm hơn với các giá trị ngoại lai so với các phương pháp tham số. Mối quan hệ [các quan sát có cùng giá trị] không đặt ra vấn đề mà chúng thực hiện trong các phương pháp phi tham số

Có một số hạn chế đối với phương pháp resampling. Khó khăn chính là chúng có thể khó thực hiện hơn một bài kiểm tra tham số hoặc phi tham số truyền thống. Họ ít quen thuộc hơn đối với một số nhà khoa học, điều này có thể gây ra vấn đề trong việc chấp nhận của họ, mặc dù điều này đang trở nên ít vấn đề hơn. Các phương pháp này ít được tiêu chuẩn hóa hơn so với các bài kiểm tra tham số và phi tham số, và đôi khi chúng rất tốn kém về mặt tính toán

Có bốn loại phương pháp lấy lại mẫu chính. ngẫu nhiên hóa, Monte Carlo, bootstrap và jackknife. Các phương pháp này có thể được sử dụng để xây dựng hệ thống phân phối dựa trên dữ liệu của chúng tôi, sau đó có thể được sử dụng để tạo khoảng tin cậy dựa trên ước tính tham số. Ngoài ra, chúng có thể được sử dụng để xây dựng hệ thống phân phối dựa trên giả thuyết trống rỗng, có thể được sử dụng để tạo giá trị p hoặc giá trị tới hạn

Tóm tắt nội dung

Monte Carlo

Các phương pháp Monte Carlo thường được sử dụng trong các mô phỏng trong đó các mẹ phân phối được biết đến hoặc được giả định. Nói không ngoa, tôi đã sử dụng phương pháp Monte Carlo trong suốt quá trình học tập để minh họa cách thức hoạt động của các kỹ thuật thống kê

Ví dụ. giả sử chúng ta muốn mô phỏng bảng phân phối của F cho hai mẫu được rút ra từ phân phối chuẩn. Chúng tôi sẽ chỉ định giá trị trung bình và phương sai của phân phối chuẩn, tạo hai mẫu có kích thước định mức cao nhất và tính toán tỷ lệ phương sai của chúng tôi. Chúng tôi sẽ lặp lại quá trình này nhiều lần để tạo ra tần suất phân bổ của bảng thống kê F, từ đó chúng tôi có thể tính toán giá trị p hoặc giá tới hạn

Đây là một ví dụ về Monte Carlo trong R. Đầu tiên khối mã tạo ra một hàm Rate F của hai mẫu, với kích thước mẫu n1 và n2. Khối mã thứ hai khai báo các kích thước mẫu mà chúng ta muốn mô phỏng, sau đó gọi hàm của chúng ta nhiều lần để xây dựng phân phối các giá trị F

simulateOneF 

Chủ Đề