Lý thuyết xác suất thống kê toán đại học năm 2024
Giáo trình Lý thuyết xác suất và thống kê toán (tái bản lần 6) xuất bản chính thống bởi NXB Đại học Kinh tế Quốc dân. Giáo trình bao gồm các nội dung: Show Phần I. LÝ THUYẾT XÁC SUẤT Chương 1. BIẾN CỐ NGẪU NHIÊN VÀ XÁC SUẤT Chương 2. BIẾN NGẪU NHIÊN VÀ QUY LUẬT PHÂN PHỐI XÁC SUẤT Chương 3. MỘT SỐ QUY LUẬT XÁC SUẤT PHÂN PHỐI THÔNG DỤNG Chương 4. BIẾN NGẪU NHIÊN HAI CHIỀU, HÀM CÁC BIẾN NGẪU NHIÊN Chương 5. CÁC ĐỊNH LÝ GIỚI HẠN Phần II. THỐNG KÊ TOÁN Chương 6. CƠ SỞ LÝ THUYẾT MẪU Chương 7. ƯỚC LƯỢNG CÁC THAM SỐ CỦA BIẾN NGẪU NHIÊN Chương 8. KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ Chương 9. KIỂM ĐỊNH PHI THAM SỐ Chương 10. PHÂN TÍCH PHƯƠNG SAI Chương 11. PHÂN TÍCH TƯƠNG QUAN VÀ HỒI QUY Chương 12. PHÂN TÍCH CHỖI THỜI GIAN Phần III. PHÂN TÍCH NHÂN TỐ Chương 13. PHƯƠNG PHÁP THÀNH PHẦN CHÍNH Chương 14. PHÂN TÍCH TƯƠNG ỨNG Chương 15. CÁC PHƯƠNG PHÁP PHÂN LỚP Thống kê là khoa học nghiên cứu của tập hợp nhiều lĩnh vực khác nhau, bao gồm thu thập, tổ chức, tổng hợp, phân tích và rút ra kết luận từ dữ liệu. Một vài lý do mà sinh viên học sinh cần học thống kê là:
Sau khi học xong chương này, người học sẽ được cung cấp về nhữngđiều sau:
1 Thống kê mô tả và thống kê suy diễn Để có được các kiến thức về những tình huống dường như ngẫu nhiên, thống kê thu thập thông tin cho các biến, mô tả tình hình. Một biến là một đặc điểm hay thuộc tính có thể cho giá trị khác nhau. Dữ liệu là tập các giá trị (số đo hoặc quan sát) mà các biến có thểgiả định. Biến có giá trị được xác định ngẫu nhiên được gọi là biến ngẫu nhiênập các giá trị dữ liệu tạo thành một tập hợp giá trị dữ liệu. Mỗi giá trị dữ liệu thiết lập được gọi là một giá trị dữ liệu hoặc một số liệu. Thống kê thường được chia ra hai loại là thống kê mô tả và thống kêsuy diễn:
Tổng thể (còn được gọi là tập hợp chính, dân số) là tập hợp tất cảcác phần tử do mục đích và phạm vi vấn đề cần nghiên cứu quy định. Mẫu là một nhóm các đối tượng được chọn trực tiếp từ tổng thể. 1 Các loại biến và các loại dữ liệu Quan sát và đo lường các hiện tượng là điều căn bản cho tất cả cácnghiên cứu khoa học. Các hiện tượng hoặc dấu hiệu mà ta quan sát có thể thay đổi từ phần tử này qua phần tử khác được gọi làbiến. Ta cần phân biệt các loại biến: biến định tính (qualitative variables) và biến định lượng (quantitative variables). Các biến được đo lường và phân loại theo các thang đo, do đó ta cần phân biệt các loại thang đo: thang đo danh nghĩa (nominal-level), thang đo thứ hạng (ordinal-level), thang đo khoảng (interval-level) và thang đo tỉ lệ (ratio-level). 1.2 Biến định tính và biến định lượng Biến định tínhlà những biến mà người ta gán các giá trị để phân biệt hay phân loại quan sát. Chẳng hạn: giới tính (nam, nữ); tình trạng hôn nhân (độc thân, có gia đình, ly dị, góa chồng hay vợ), kết quả học tập (yếu, trung bình, khá, giỏi). Thang danh nghĩa Thang thứ hạng Thang đo khoảng Thang tỉ lệ Mã bưu chính Điểm số (A,B,C,D,F) Điểm SAT Chiều cao Giới tính (nam, nữ) Đánh giá (vị trí nhất, Chỉ số IQ Cân nặng Màu mắt (nâu, nhì, ...) Nhiệt độ Thời gian xanh dương, ...) Thang điểm đánh giá Lương Đảng phái chính trị (yếu, khá, ...) Tuổi Chuyên ngành (toán, Xếp hạng các cầu thủ tin học, ...) quần vợt Quốc tịch Tôn giáo 1 Thu thập dữ liệu và phương pháp lấy mẫu Dữ liệu có thể được thu thập bằng nhiều cách khác nhau. Một trongnhững phương pháp phổ biến nhất là thông qua việc sử dụng các cuộc điều tra. Khảo sát có thể được thực hiện bằng cách sử dụng nhiều phương pháp. Ba trong sốcác phương pháp phổ biến nhất là khảo sát qua điện thoại, bản câu hỏi gửi qua đường bưu điện và cuộc phỏng vấn cá nhân. Các cuộc điều tra bằng điện thoại có lợi thế hơn các cuộc điều traphỏng vấn cá nhân do họ ít tốn kém hơn. Ngoài ra, người ta có thể thẳng thắn hơn trong quan điểm của họ vì không có liên hệ đối mặt. Một trở ngại lớn nhất đối với cuộc khảo sát qua điện thoại là một số người dân sẽ không có điện thoại hoặc sẽkhông trả lời khi có cuộc gọi; do đó, không phải tất cả mọi người đều có cơ hội đượcđiều tra. Ngoài ra, hiện nay nhiều người dùng số diện thoại không có trong danhsách công bố, vì vậy họ không thể được khảo sát. Cuối cùng, ngay cả giọng nói của người phỏng vấn cũng có thể ảnh hưởng đến phản ứng của người được phỏng vấn. Các cuộc điều tra gửi qua đường bưu điện có thể được sử dụng để baophủ một khu vực địa lý rộng lớn hơn so với các cuộc điều tra qua điện thoại hoặc các cuộc phỏng vấn cá nhân vì các cuộc điều tra bằng phiếu gửi ít tốn kém hơn để tiến hành. Ngoài ra, người trả lời có thể vẫn vô danh nếu họ muốn. Nhược điểm của các cuộc điều tra bằng bảng câu hỏi gửi thư bao gồm số lượng phản hồi thấpvà câu trả lời không thích hợp. Một nhược điểm nữa là một số người có thể gặp khókhăn khi đọc hoặc hiểu các câu hỏi. Các cuộc điều tra phỏng vấn cá nhân có lợi thế là có được những câutrả lời sâu về các câu hỏi từ người được phỏng vấn. Một bất lợi là người phỏngvấn phải được đào tạo trong việc đặt câu hỏi và ghi lại những phản hồi, làm chocuộc điều tra phỏng vấn cá nhân tốn kém hơn so với các phương pháp khảo sát khác. Một bất lợi khác là người phỏng vấn có thể có thành kiến trong việc lựa chọn người trả lời của mình. Dữ liệu cũng có thể được thu thập theo những cách khác, chẳng hạn như khảo sát hồ sơ hoặc quan sát trực tiếp các tình huống. Các nhà nghiên cứu sử dụng các mẫu để thu thập dữ liệu và thông tinvề một biến cụ thể từ một quần thể lớn. Sử dụng mẫu tiết kiệm về mặt thờigian, tiền bạc và trong một số trường hợp cho phép nhà nghiên cứu có được thôngtin chi tiết hơn về một chủ đề cụ thể. Tuy nhiên các mẫu không thể được lựa chọn theo cách ngẫu nhiên được bởi vì thông tin thu được có thể là chênh lệch. Để có được các mẫu không chênh lệch - nghĩa là mỗi đối tượng trong quần thể có cơ hội đượclựa chọn như nhau
1.3 Mẫu ngẫu nhiên (Random Sampling) Các mẫu ngẫu nhiên được lựa chọn bằng cách sử dụng các phương pháp ngẫu nhiên hoặc các số ngẫu nhiên. Một trong những phương pháp như vậy là gán mỗi số cho một đối tượng trong tổng thể. Sau đó đặt các thẻ được đánh sốvào một cái bát, trộn chúng cẩn thận và chọn nhiều loại thẻ nếu cần. Các đối tượngcó số được chọn tạo thành mẫu. Vì khó trộn các loại thẻ này kỹ lưỡng nên vẫn có thể tạo ra một mẫu chệch. Vì lý do này, các nhà thống kê sử dụng phương pháp khác đểthu thập số liệu bằng cách họ tạo ra các số ngẫu nhiên từ máy tính. 1.3 Mẫu hệ thống (Systematic Sampling) Là loại mẫu đã được đơn giản hóa trong cách chọn, trong đó chỉ cóphần tử đầu tiên được chọn ngẫu nhiên, sau đó dựa vào danh sách đã được đánhsố của tổng thể để chọn ra các phần tử tiếp theo vào mẫu theo một thủ tục nào đó. Chẳng hạn, trên một danh sáchN phần tử cần chọn ra một mẫu kích thướcnthì ta chia danh sách đó ranphần bằng nhau, ở phần thứ nhất gồmN/nphần tử, chọn ngẫu nhiên ra một phần tử, sau đó theo danh sách cứ cáchN/nphần tử ta lấy ra một phần tử vào mẫu cho đến khi có đủnphần tử. 1.3 Mẫu phân tầng (Stratified Sampling) Để thu được một mẫu phân tầng ta phân chia tổng thể thành các nhóm (gọi là tầng) theo một số đặc điểm quan trọng cho nghiên cứu, sau đó chọn ngẫu nhiên các phần tử đại diện cho từng nhóm. 1.3 Mẫu chùm (Cluster Sampling) Trong một số trường hợp để tiện cho việc nghiên cứu người ta muốn quy diện nghiên cứu gọn về một khu vực nhất định chứ không để cho các phầntử của mẫu phân tán quá rộng, lúc đó mẫu được chọn theo chùm. Để thực hiện theo phương pháp này, trước tiên tổng thể điều trađược phân chia thành nhiều chùm theo nguyên tắc:
về đặc điểm của tổng thể. Tuy nhiên, có một khía cạnh khác của sốliệu thống kê đó là việc sử dụng sai kỹ thuật thống kê để bán sản phẩm không hoạt động đúng cách để thử chứng minh điều gì đó thực sự là không đúng sự thật hoặc đểthu hút sự chú ý của chúng ta bằng cách sử dụng thống kê để gây ra nỗi sợ hãi, sốcvà xúc phạm. Sau đây là một số cách mà thống kê có thể bị trình bày sai:
1 Máy tính và tính toán Trong phần này, tôi giới thiệu một vài phần mềm được sử dụng trong xác suất thống kê: SPSS, MINITAB, Microsoft Excel, Máy tính bỏ túi. Phần bài tập chương 1
13ác vi khuẩn có lợiTheo một nghiên cứu thí điểm của 20 người được tiến hành tại Đại học Minnesota, hàng ngày cho sử dụng thuốc theo liều lượng của một hợp chất được gọi là arabinogalactan trong thời gian 6 tháng đã làm tăng đáng kể các loại vi khuẩn lactobacillus có lợi. Tại sao không thể kết luận rằng hợp chất này có lợi cho đa số mọi người? Chương 2PHÂN BỐ TẦN SỐ VÀ ĐỒ THỊKhi tiến hành nghiên cứu thống kê, nhà nghiên cứu phải thu thập dữ liệu cho một biến cụ thể đang được nghiên cứu. Ví dụ, nếu một nhà nghiên cứu muốn nghiên cứu số người bị rắn cắn ở một khu vực địa lý cụ thể trong vài năm gần đây, họ phải thu thập dữ liệu từ các bác sĩ, bệnh viện hoặc các sở y tế khác nhau. Để mô tả tình huống, rút ra kết luận, hoặc suy luận về sự kiện, nhà nghiên cứu phải tổ chức dữ liệu một cách có ý nghĩa. Cách thức thuận tiện nhất để tổ chức dữ liệu là xây dựng một phân bố tần số. Sau khi tổ chức dữ liệu, nhà nghiên cứu phải trình bày cho người đọc có thể rút ra một số thông tin từ thị giáctừ những sự kiện có vẻ như phức tạp, hỗn độn. Phương pháp hữu ích nhất để trình bàydữ liệu là xây dựng biểu đồ và đồ thị thống kê. Có rất nhiều loại biểu đồ và đồ thịkhác nhau và mỗi loại có một mục đích cụ thể. Chương này giải thích làm thế nào để tổ chức dữ liệu bằng cách xâydựng phân phối tần số và làm thế nào để trình bày dữ liệu bằng cách xây dựngbiểu đồ và đồ thị. Các biểu đồ và biểu đồ được minh họa ở đây là nhật đồ, đa giác tần số, biểu đồ hình cung, biểu đồ hình tròn, biểu đồ Pareto và biểu đồ chuỗi thời gian. Một biểu đồ kết hợp các đặc điểm của một phân bố tần số và nhật đồ được gọi là biểu đồ thân và lá. 2 Tổ chức dữ liệu Giả sử một nhà nghiên cứu muốn nghiên cứu về lứa tuổi của 50 người giàu nhất trên thế giới. Đầu tiên các nhà nghiên cứu sẽ phải lấy dữ liệu vềtuổi của các người dân. Trong trường hợp này, những lứa tuổi này được liệt kê trong tạp chí Forbes. Khi dữ liệu ở dạng ban đầu, chúng được gọi là dữ liệu thô và được liệtkê dưới đây: 49 57 38 73 81 74 59 76 65 69 54 56 69 68 78 65 85 49 69 61 48 81 68 37 43 78 82 43 64 67 52 57 81 77 79 85 40 85 59 80 60 71 57 61 69 61 83 90 87 74 Vì khi xem dữ liệu thô ta thu được ít thông tin từ nó nên nhà nghiên cứu thiết lập một phân bố tần số cho dữ liệu. Phân bố tần số là tổ chức dữ liệuthô ở dạng bảng bao gồm các lớp và tần số tương ứng. Số lần xảy ra cho mỗi lớpđược gọi là tần Như vậy, đối với mẫu trên thì nhiều người có loại máu O hơn bất kỳloại nào khác.
Quy trình phân bố tần số ghép lớp:
LCBi=LLi− 1 2 (đơn vị đo lường dữ liệu), U CBi=U Li+ 1 2 (đơn vị đo lường dữ liệu).
Ví dụ 2.1.2 các số liệu thống kê về nhiệt độ cao kỷ lục (tính bằng độ F) của 50 tiểu bang. Hãy lập bảng phân bố tần số ghép lớp với 7 lớp. 112 100 127 120 134 118 105 110 109 112 110 118 117 116 118 122 114 114 105 109 107 112 114 115 118 117 118 122 106 110 116 108 110 121 113 120 119 111 104 111 120 113 120 117 105 110 118 112 114 114 Lý thuyết xác suất và thống kê toàn là gì?Lý thuyết xác suất và thống kê toán là môn học nghiên cứu các hiện tượng ngẫu nhiên và xử lý số liệu kinh tế – xã hội trong điều kiện bất định, tức là thông tin không đầy đủ. Môn học có 2 phần tương đối độc lập về cấu trúc nhưng gắn rất chặt về nội dung. Môn xác suất thống kê là gì?“Xác suất và Thống kê là 2 bộ môn riêng biệt, bản thân từ thống kê có thể hiểu là tổng hợp, ghi chép số liệu về một vấn đề nào đó với những con số đã có sẵn, chính xác. Còn Xác suất là một môn học để tính toán xem tỷ số, tỷ lệ xảy ra với một hiện tượng, một biến cố trong một khoảng thời gian cố định như thế nào. Làm sao để học tốt môn xác suất thống kê?[TopTip] Top 7 Tips Thi Môn Xác Suất Thống Kê Đạt Điểm Cao. Đọc giáo trình trước khi lên lớp. ... . Hiểu và nhớ các khái niệm về xác suất thống kê ... . Nắm vững các kiến thức về xác suất thông kê ... . Học từ đầu và tập trung cao độ ... . Lựa chọn phương pháp học tập phù hợp. ... . Đọc nhiều tài liệu tham khảo. ... . Ôn tập trước kì thi sớm.. Sigma là gì trong xác suất thống kê?Biểu tượng sigma (chữ thường) (Ký hiệu: σ) thường được sử dụng trong toán học và thống kê để biểu thị cho độ lệch chuẩn trong thống kê và tổng của một tập hợp dữ liệu, giúp tính toán phương sai, trung bình và nhiều thống kê khác. |