Lý thuyết xác suất thống kê toán đại học năm 2024

Giáo trình Lý thuyết xác suất và thống kê toán (tái bản lần 6) xuất bản chính thống bởi NXB Đại học Kinh tế Quốc dân. Giáo trình bao gồm các nội dung:

Phần I. LÝ THUYẾT XÁC SUẤT

Chương 1. BIẾN CỐ NGẪU NHIÊN VÀ XÁC SUẤT

Chương 2. BIẾN NGẪU NHIÊN VÀ QUY LUẬT PHÂN PHỐI XÁC SUẤT

Chương 3. MỘT SỐ QUY LUẬT XÁC SUẤT PHÂN PHỐI THÔNG DỤNG

Chương 4. BIẾN NGẪU NHIÊN HAI CHIỀU, HÀM CÁC BIẾN NGẪU NHIÊN

Chương 5. CÁC ĐỊNH LÝ GIỚI HẠN

Phần II. THỐNG KÊ TOÁN

Chương 6. CƠ SỞ LÝ THUYẾT MẪU

Chương 7. ƯỚC LƯỢNG CÁC THAM SỐ CỦA BIẾN NGẪU NHIÊN

Chương 8. KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ

Chương 9. KIỂM ĐỊNH PHI THAM SỐ

Chương 10. PHÂN TÍCH PHƯƠNG SAI

Chương 11. PHÂN TÍCH TƯƠNG QUAN VÀ HỒI QUY

Chương 12. PHÂN TÍCH CHỖI THỜI GIAN

Phần III. PHÂN TÍCH NHÂN TỐ

Chương 13. PHƯƠNG PHÁP THÀNH PHẦN CHÍNH

Chương 14. PHÂN TÍCH TƯƠNG ỨNG

Chương 15. CÁC PHƯƠNG PHÁP PHÂN LỚP

Thống kê là khoa học nghiên cứu của tập hợp nhiều lĩnh vực khác nhau, bao gồm thu thập, tổ chức, tổng hợp, phân tích và rút ra kết luận từ dữ liệu. Một vài lý do mà sinh viên học sinh cần học thống kê là:

  • Giống như những người chuyên nghiệp, bạn phải có khả năng đọc và hiểu các nghiên cứu thống kê được thực hiện trong các lĩnh vực của bạn. Để có được sự hiểu biết này, bạn phải am hiểu về từ vựng, các kí hiệu, khái niệm, và thủ tục thống kê được sử dụng trong các nghiên cứu này.
  • Bạn có thể được giao để tiến hành các nghiên cứu trong lĩnh vực của bạn, vì thủ tục thống kê là cơ bản để tiến hành một nghiên cứu. Để thực hiện việc này, bạn phải có khả năng thiết kế các thí nghiệm, thu thập, tổ chức, phân tích và tóm tắt dữ liệu và có thể đưa ra dự đoán đáng tin cậy hoặc dự báo để sử dụng trong tương lai. Bạn cũng phải có khả năng truyền đạt kết quả nghiên cứu bằng khả năng diễn đạt của bạn.
  • Bạn cũng có thể sử dụng các kiến thức thu được từ nghiên cứu thống kê để trở thành người tiêu dùng và công dân tốt hơn. Ví dụ: bạn có thể đưa ra các quyết định thông minh về sản phẩm cần mua dựa trên nghiên cứu người tiêu dùng, về chi tiêu của chính phủ dựa trên nghiên cứu sử dụng,... Những lýdo này có thể được coi là mục tiêu để nghiên cứu số liệu thống kê. Mục đích của chương này là giới thiệu các mục tiêu nghiên cứu thống kê bằng việc trả lờicác câu hỏi như sau: Thống kê là gì? Dữ liệu là gì? Các mẫu được chọn như thế nào?

Sau khi học xong chương này, người học sẽ được cung cấp về nhữngđiều sau:

  • Kiểm tra được kiến thức về các thuật ngữ thống kê.
  • Phân biệt được giữa hai nhánh của thống kê: Thống kê mô tả và thốngkê suy diễn.
  • Xác định được các loại dữ liệu.
  • Xác định mức đo lường cho mỗi biến.
  • Xác định bốn kỹ thuật lấy mẫu căn bản.
  • Giải thích sự khác nhau giữa nghiên cứu quan sát và nghiên cứu thực nghiệm.
  • Giải thích cách mà thống kê có thể được sử dụng và sự lạm dụng củathống kê.
  • Giải thích tầm quan trọng của máy tính và tính toán trong thốngkê.

1 Thống kê mô tả và thống kê suy diễn

Để có được các kiến thức về những tình huống dường như ngẫu nhiên, thống kê thu thập thông tin cho các biến, mô tả tình hình. Một biến là một đặc điểm hay thuộc tính có thể cho giá trị khác nhau.

Dữ liệu là tập các giá trị (số đo hoặc quan sát) mà các biến có thểgiả định. Biến có giá trị được xác định ngẫu nhiên được gọi là biến ngẫu nhiênập các giá trị dữ liệu tạo thành một tập hợp giá trị dữ liệu. Mỗi giá trị dữ liệu thiết lập được gọi là một giá trị dữ liệu hoặc một số liệu.

Thống kê thường được chia ra hai loại là thống kê mô tả và thống kêsuy diễn:

  • Thống kê mô tả được sử dụng để mô tả một nhóm phần tử được quan sáttrong thực tế. Thống kê mô tả bao gồm thu thập, tổ chức, tổng hợp và trình bày dữ liệu.
  • Thông thường trong nghiên cứu, ta không chỉ giới hạn các kết luận vào một nhóm các phần tử mà ta đã quan sát (được gọi là mẫu). Điều mà ta muốn là tìm hiểu một sự liên hệ nào đó có thể áp dụng cho tất cả các phần tử mà ta chưa hay không thể quan sát được (được gọi là tổng thể). Quá trình tìm hiểu một mẫu rồi dựa vào các kết quả của lý thuyết xác suất để rút ra kết luận cho tổng thể được gọi là thống kê suy diễn. Như vậy mục đích chính của thống kê suy diễn là tổng hợp kết quả từ các mẫu cho tổng thể, thực hiện ước lượng và kiểm định giả thuyết, xác định các mối quan hệ giữa các biến và đưa ra dự đoán.

Tổng thể (còn được gọi là tập hợp chính, dân số) là tập hợp tất cảcác phần tử do mục đích và phạm vi vấn đề cần nghiên cứu quy định. Mẫu là một nhóm các đối tượng được chọn trực tiếp từ tổng thể.

1 Các loại biến và các loại dữ liệu

Quan sát và đo lường các hiện tượng là điều căn bản cho tất cả cácnghiên cứu khoa học. Các hiện tượng hoặc dấu hiệu mà ta quan sát có thể thay đổi từ phần tử này qua phần tử khác được gọi làbiến. Ta cần phân biệt các loại biến: biến định tính (qualitative variables) và biến định lượng (quantitative variables). Các biến được đo lường và phân loại theo các thang đo, do đó ta cần phân biệt các loại thang đo: thang đo danh nghĩa (nominal-level), thang đo thứ hạng (ordinal-level), thang đo khoảng (interval-level) và thang đo tỉ lệ (ratio-level).

1.2 Biến định tính và biến định lượng

Biến định tínhlà những biến mà người ta gán các giá trị để phân biệt hay phân loại quan sát.

Chẳng hạn: giới tính (nam, nữ); tình trạng hôn nhân (độc thân, có gia đình, ly dị, góa chồng hay vợ), kết quả học tập (yếu, trung bình, khá, giỏi).

Thang danh nghĩa Thang thứ hạng Thang đo khoảng Thang tỉ lệ Mã bưu chính Điểm số (A,B,C,D,F) Điểm SAT Chiều cao Giới tính (nam, nữ) Đánh giá (vị trí nhất, Chỉ số IQ Cân nặng Màu mắt (nâu, nhì, ...) Nhiệt độ Thời gian xanh dương, ...) Thang điểm đánh giá Lương Đảng phái chính trị (yếu, khá, ...) Tuổi Chuyên ngành (toán, Xếp hạng các cầu thủ tin học, ...) quần vợt Quốc tịch Tôn giáo

1 Thu thập dữ liệu và phương pháp lấy mẫu

Dữ liệu có thể được thu thập bằng nhiều cách khác nhau. Một trongnhững phương pháp phổ biến nhất là thông qua việc sử dụng các cuộc điều tra. Khảo sát có thể được thực hiện bằng cách sử dụng nhiều phương pháp. Ba trong sốcác phương pháp phổ biến nhất là khảo sát qua điện thoại, bản câu hỏi gửi qua đường bưu điện và cuộc phỏng vấn cá nhân.

Các cuộc điều tra bằng điện thoại có lợi thế hơn các cuộc điều traphỏng vấn cá nhân do họ ít tốn kém hơn. Ngoài ra, người ta có thể thẳng thắn hơn trong quan điểm của họ vì không có liên hệ đối mặt. Một trở ngại lớn nhất đối với cuộc khảo sát qua điện thoại là một số người dân sẽ không có điện thoại hoặc sẽkhông trả lời khi có cuộc gọi; do đó, không phải tất cả mọi người đều có cơ hội đượcđiều tra. Ngoài ra, hiện nay nhiều người dùng số diện thoại không có trong danhsách công bố, vì vậy họ không thể được khảo sát. Cuối cùng, ngay cả giọng nói của người phỏng vấn cũng có thể ảnh hưởng đến phản ứng của người được phỏng vấn.

Các cuộc điều tra gửi qua đường bưu điện có thể được sử dụng để baophủ một khu vực địa lý rộng lớn hơn so với các cuộc điều tra qua điện thoại hoặc các cuộc phỏng vấn cá nhân vì các cuộc điều tra bằng phiếu gửi ít tốn kém hơn để tiến hành. Ngoài ra, người trả lời có thể vẫn vô danh nếu họ muốn. Nhược điểm của các cuộc điều tra bằng bảng câu hỏi gửi thư bao gồm số lượng phản hồi thấpvà câu trả lời không thích hợp. Một nhược điểm nữa là một số người có thể gặp khókhăn khi đọc hoặc hiểu các câu hỏi.

Các cuộc điều tra phỏng vấn cá nhân có lợi thế là có được những câutrả lời sâu về các câu hỏi từ người được phỏng vấn. Một bất lợi là người phỏngvấn phải được đào tạo trong việc đặt câu hỏi và ghi lại những phản hồi, làm chocuộc điều tra phỏng vấn cá nhân tốn kém hơn so với các phương pháp khảo sát khác. Một bất lợi khác là người phỏng vấn có thể có thành kiến trong việc lựa chọn người trả lời của mình.

Dữ liệu cũng có thể được thu thập theo những cách khác, chẳng hạn như khảo sát hồ sơ hoặc quan sát trực tiếp các tình huống.

Các nhà nghiên cứu sử dụng các mẫu để thu thập dữ liệu và thông tinvề một biến cụ thể từ một quần thể lớn. Sử dụng mẫu tiết kiệm về mặt thờigian, tiền bạc và trong một số trường hợp cho phép nhà nghiên cứu có được thôngtin chi tiết hơn về một chủ đề cụ thể. Tuy nhiên các mẫu không thể được lựa chọn theo cách ngẫu

nhiên được bởi vì thông tin thu được có thể là chênh lệch. Để có được các mẫu không chênh lệch - nghĩa là mỗi đối tượng trong quần thể có cơ hội đượclựa chọn như nhau

  • các nhà thống kê sử dụng bốn phương pháp lấy mẫu căn bản: mẫu ngẫu nhiên, có hệ thống, phân tầng và lấy mẫu cụm.

1.3 Mẫu ngẫu nhiên (Random Sampling)

Các mẫu ngẫu nhiên được lựa chọn bằng cách sử dụng các phương pháp ngẫu nhiên hoặc các số ngẫu nhiên. Một trong những phương pháp như vậy là gán mỗi số cho một đối tượng trong tổng thể. Sau đó đặt các thẻ được đánh sốvào một cái bát, trộn chúng cẩn thận và chọn nhiều loại thẻ nếu cần. Các đối tượngcó số được chọn tạo thành mẫu. Vì khó trộn các loại thẻ này kỹ lưỡng nên vẫn có thể tạo ra một mẫu chệch. Vì lý do này, các nhà thống kê sử dụng phương pháp khác đểthu thập số liệu bằng cách họ tạo ra các số ngẫu nhiên từ máy tính.

1.3 Mẫu hệ thống (Systematic Sampling)

Là loại mẫu đã được đơn giản hóa trong cách chọn, trong đó chỉ cóphần tử đầu tiên được chọn ngẫu nhiên, sau đó dựa vào danh sách đã được đánhsố của tổng thể để chọn ra các phần tử tiếp theo vào mẫu theo một thủ tục nào đó. Chẳng hạn, trên một danh sáchN phần tử cần chọn ra một mẫu kích thướcnthì ta chia danh sách đó ranphần bằng nhau, ở phần thứ nhất gồmN/nphần tử, chọn ngẫu nhiên ra một phần tử, sau đó theo danh sách cứ cáchN/nphần tử ta lấy ra một phần tử vào mẫu cho đến khi có đủnphần tử.

1.3 Mẫu phân tầng (Stratified Sampling)

Để thu được một mẫu phân tầng ta phân chia tổng thể thành các nhóm (gọi là tầng) theo một số đặc điểm quan trọng cho nghiên cứu, sau đó chọn ngẫu nhiên các phần tử đại diện cho từng nhóm.

1.3 Mẫu chùm (Cluster Sampling)

Trong một số trường hợp để tiện cho việc nghiên cứu người ta muốn quy diện nghiên cứu gọn về một khu vực nhất định chứ không để cho các phầntử của mẫu phân tán quá rộng, lúc đó mẫu được chọn theo chùm.

Để thực hiện theo phương pháp này, trước tiên tổng thể điều trađược phân chia thành nhiều chùm theo nguyên tắc:

  • mỗi phần tử của tổng thể chỉ được phân vào một chùm.
  • mỗi chùm cố gắng chứa nhiều phần tử khác nhau về dấu hiệu nghiêncứu sao cho nó có độ phân tán cao như tổng thể.
  • phân chia sao cho các chùm tương đối đồng đều nhau về quy mô. Tiếp đó các chùm được chọn một cách ngẫu nhiên và tất cả các phần tử của chùm đó đều được chọn vào mẫu.

về đặc điểm của tổng thể. Tuy nhiên, có một khía cạnh khác của sốliệu thống kê đó là việc sử dụng sai kỹ thuật thống kê để bán sản phẩm không hoạt động đúng cách để thử chứng minh điều gì đó thực sự là không đúng sự thật hoặc đểthu hút sự chú ý của chúng ta bằng cách sử dụng thống kê để gây ra nỗi sợ hãi, sốcvà xúc phạm.

Sau đây là một số cách mà thống kê có thể bị trình bày sai:

  • Sử dụng mẫu nghi ngờ: Đôi khi các nhà nghiên cứu sử dụng các mẫu rất nhỏ để có được thông tin. Không chỉ quan trọng là phải có kích thước mẫuđủ lớn mà còn là cần thiết để xem các đối tượng trong mẫu đã được lựa chọn như thế nào. Một số nhà nghiên cứu dùng mẫu thuận tiện. Chẳng hạn, các nghiên cứu giáo dục đôi khi sử dụng toàn bộ học sinh trong một lớp học vì thuận tiện để đánh giá cho toàn bộ tổng thể.
  • Trung bình không được rõ ràng.
  • Một biến dạng của thống kê có thể xảy ra khi các giá trị khác nhau được biểu diễn cho cùng một dữ liệu.
  • Thống kê bị tách rời, tức là thống kê không có sự so sánh được thựchiện.
  • Nhiều kết nối hàm ý giữa các biến mà có thể không thực sự tồn tạií dụ, hãy xem xét tuyên bố sau: "Ăn cá có thể giúp giảm cholesterol của bạn". Lưu ý các từ "có thể giúp". Không có gì đảm bảo rằng ăn cá chắc chắn sẽ giúp bạn giảm cholesterol.
  • Sử dụng biểu đồ sai lệch sẽ gây cho người đọc rút ra những kết luận sai.
  • Sử dụng các câu hỏi khảo sát bị lỗi.

1 Máy tính và tính toán

Trong phần này, tôi giới thiệu một vài phần mềm được sử dụng trong xác suất thống kê: SPSS, MINITAB, Microsoft Excel, Máy tính bỏ túi.

Phần bài tập chương 1

  1. Nêu tên và định nghĩa hai lĩnh vực của thống kê.
  2. Giải thích sự khác nhau giữa mẫu và tổng thể.
  3. Tại sao mẫu lại được sử dụng trong thống kê?
  4. Trong mỗi báo cáo sau, thống kê mô tả hay thống kê suy diễn được sử dụng?
  1. Trong năm 2010, 148 triệu người Mỹ sẽ tham gia HMO (Nguồn: USA TO- DAY). b. Chín trong số mười người tử vong trong công việc là nam giới (Nguồn: USA TODAY Weekend). c. Chi phí cho ngành công nghiệp cáp là 5,66 tỷ đô la vào năm 1996 (Nguồn: USA TODAY). d. Thu nhập trung bình của hộ gia đình cho người từ 25-34 tuổi là 35 USD (Nguồn: USA TODAY). e. Liệu pháp dị ứng làm cho ong bỏ đi (Nguồn: Phòng ngừa). f. Uống cà phê không có caffein có thể làm tăng mức cholesterollên7%(Nguồn: Hiệp hội Tim Mạch Hoa Kỳ). g. Chi phí y tế trung bình hàng năm cho mỗi người là 1052 đô la (Nguồn: The Greensburg Tribune Review). h. Các chuyên gia nói rằng tỷ lệ thế chấp có thể sớm hạ xuống đến mức thấp nhất (Nguồn: USA TODAY).
  1. Phân loại từng thang đo: thang đo danh nghĩa, thang thứ hạng,thang đo khoảng, thang tỉ lệ cho các dữ kiện sau: a. Số trang trong cuốn danh bạ điện thoại của thành phố Cleveland. b. Xếp hạng của cầu thủ quần vợt. c. Trọng lượng của các máy điều hòa. d. Nhiệt độ bên trong 10 tủ lạnh. e. Tiền lương của năm giám đốc điều hành hàng đầu tại Hoa Kỳ. f. Xếp hạng của tám vở kịch địa phương (yếu, trung bình, tốt, xuất sắc). g. Thời gian cần thiết cho thợ cơ khí để điều chỉnh máy. h. Tuổi của học sinh trong lớp. i. Tình trạng hôn nhân của bệnh nhân tại văn phòng bác sĩ. j. Mã lực của động cơ máy kéo.
  2. Phân loại các biến sau theo biến định tính hay định lượng.
  1. Số lượng xe đạp được bán trong 1 năm bởi một cửa hàng bán đồ thểthao lớn. b. Màu sắc của mũ bóng chày trong một cửa hàng. c. Thời gian cần thiết để cắt một bãi cỏ.
  1. Khi người già với cao huyết áp từ nhẹ đến trung bình được truyền muối khoáng trong vòng 6 tháng, chỉ số huyết áp trung bình giảm 8 điểm tâm thu và tâm trương 3 điểm (Nguồn: Phòng bệnh). e. Số tiền trung bình dành cho mỗi món quà cho Mẹ trong Ngày của Mẹ là 25,95 đô la (Nguồn: Tổ chức Gallup).
  1. Xác định các nghiên cứu sau là nghiên cứu quan sát hay nghiên cứu thực nghiệm?
  1. Các đối tượng được phân ngẫu nhiên vào hai nhóm, và một nhóm được cho một loại thảo mộc và một nhóm khác là giả dược. Sau 6 tháng, số người mắc bệnh đường hô hấp trên mỗi nhóm đã được so sánh. b. Một nhà nghiên cứu đứng ở một ngã tư đông đúc để xem liệu màu củaô tô có liên quan đến việc người lái vượt đèn đỏ. c. Một nhà nghiên cứu nhận thấy rằng những người gây hấn hơn sẽ cómức cholesterol toàn phần cao hơn những người ít gây hấn. d. Các đối tượng được phân chia ngẫu nhiên thành bốn nhóm. Mỗi nhóm được xếp vào một trong bốn chế độ ăn đặc biệt: chế độ ăn ít chất béo, chế độ ăn nhiều cá, sự kết hợp giữa chế độ ăn ít chất béo và chế độ ăn nhiều cá, chế độ ăn chuẩn. Sau 6 tháng, huyết áp của các nhóm được so sánh để xem chế độ ăn uống có bất kỳ ảnh hưởng nào đến huyết áp không.
  1. Xác định các biến độc lập và biến phụ thuộc trong mỗi nghiêncứu trong ví dụ 11

13ác vi khuẩn có lợiTheo một nghiên cứu thí điểm của 20 người được tiến hành tại Đại học Minnesota, hàng ngày cho sử dụng thuốc theo liều lượng của một hợp chất được gọi là arabinogalactan trong thời gian 6 tháng đã làm tăng đáng kể các loại vi khuẩn lactobacillus có lợi. Tại sao không thể kết luận rằng hợp chất này có lợi cho đa số mọi người?

Chương 2

PHÂN BỐ TẦN SỐ VÀ ĐỒ THỊ

Khi tiến hành nghiên cứu thống kê, nhà nghiên cứu phải thu thập dữ liệu cho một biến cụ thể đang được nghiên cứu. Ví dụ, nếu một nhà nghiên cứu muốn nghiên cứu số người bị rắn cắn ở một khu vực địa lý cụ thể trong vài năm gần đây, họ phải thu thập dữ liệu từ các bác sĩ, bệnh viện hoặc các sở y tế khác nhau.

Để mô tả tình huống, rút ra kết luận, hoặc suy luận về sự kiện, nhà nghiên cứu phải tổ chức dữ liệu một cách có ý nghĩa. Cách thức thuận tiện nhất để tổ chức dữ liệu là xây dựng một phân bố tần số. Sau khi tổ chức dữ liệu, nhà nghiên cứu phải trình bày cho người đọc có thể rút ra một số thông tin từ thị giáctừ những sự kiện có vẻ như phức tạp, hỗn độn. Phương pháp hữu ích nhất để trình bàydữ liệu là xây dựng biểu đồ và đồ thị thống kê. Có rất nhiều loại biểu đồ và đồ thịkhác nhau và mỗi loại có một mục đích cụ thể.

Chương này giải thích làm thế nào để tổ chức dữ liệu bằng cách xâydựng phân phối tần số và làm thế nào để trình bày dữ liệu bằng cách xây dựngbiểu đồ và đồ thị. Các biểu đồ và biểu đồ được minh họa ở đây là nhật đồ, đa giác tần số, biểu đồ hình cung, biểu đồ hình tròn, biểu đồ Pareto và biểu đồ chuỗi thời gian. Một biểu đồ kết hợp các đặc điểm của một phân bố tần số và nhật đồ được gọi là biểu đồ thân và lá.

2 Tổ chức dữ liệu

Giả sử một nhà nghiên cứu muốn nghiên cứu về lứa tuổi của 50 người giàu nhất trên thế giới. Đầu tiên các nhà nghiên cứu sẽ phải lấy dữ liệu vềtuổi của các người dân. Trong trường hợp này, những lứa tuổi này được liệt kê trong tạp chí Forbes. Khi dữ liệu ở dạng ban đầu, chúng được gọi là dữ liệu thô và được liệtkê dưới đây:

49 57 38 73 81 74 59 76 65 69 54 56 69 68 78 65 85 49 69 61 48 81 68 37 43 78 82 43 64 67 52 57 81 77 79 85 40 85 59 80 60 71 57 61 69 61 83 90 87 74

Vì khi xem dữ liệu thô ta thu được ít thông tin từ nó nên nhà nghiên cứu thiết lập một phân bố tần số cho dữ liệu. Phân bố tần số là tổ chức dữ liệuthô ở dạng bảng bao gồm các lớp và tần số tương ứng. Số lần xảy ra cho mỗi lớpđược gọi là tần

Như vậy, đối với mẫu trên thì nhiều người có loại máu O hơn bất kỳloại nào khác.

  1. Đối với biến định lượng Vối biến định lượng có hai loại phân bố tần số sau: i) Phân bố tần số ghép lớp (grouped frequency distribution): Phân bố tần số ghép lớp được sử dụng khi phạm vi dữ liệu (range) lớn, mỗi lớp là một đoạn dữ liệu có độ rộng (width) lớn hơn 1 đơn vị.

Quy trình phân bố tần số ghép lớp:

  • Bước 1: Xác định các lớp.
    • Tìm giá trị lớn nhất, kí hiệu H (Highest) và giá trị nhỏ nhất, kí hiệuL (Lowest).
    • Tìm phạm vi dữ liệu (range):R=H−L.
    • Chọn số lớp theo mong muốn, kí hiệuN C.
    • Tìm độ rộng (width):W= R N C . Với lưu ý: NếuW /∈Zthì ta làm tròn lên và nếuW∈Zthì chọn độ rộng làW+ 1.
    • Chọn điểm bắt đầu (giá trị nhỏ hơn hoặc bằng với giá trị nhỏ nhấtcủa dữ liệu) để làm giới hạn dưới (lower limit), kí hiệuLL, của lớp đầu tiên, cộng thêm độ rộng để được các giới hạn dưới tiếp theo, tức là:LLi+1=LLi+W, trong đóilà chỉ số lớp thứi.
    • Tìm các giới hạn trên (upper limit) của các lớp, kí hiệu làU Li=LLi+W− 1.
    • Tìm các lớp cận biên (class boundaries). Cận biên dưới (lower class bound- ary) của lớp thứ i, kí hiệu làLCB, cận biên trên (upper class boundary) của lớp thứi, kí hiệu làU CB. Công thức xác định các lớp cận biên:

LCBi=LLi− 1 2 (đơn vị đo lường dữ liệu),

U CBi=U Li+ 1 2 (đơn vị đo lường dữ liệu).

  • Bước 2: Ghi dấu dữ liệu.
  • Bước 3: Tìm các tần số và phần trăm. Khi lập bảng phân bố tần số ghép lớp ta cần lưu ý:
  • Có bao nhiêu lớp cần sử dụng trong phân bố? Số lớp nên có từ 5 đến 20mặc dù không có một quy tắc cố định về số lớp trong một phân bố tần số, điều quan trọng nhất là phải có đủ các lớp để trình bày rõ ràng về các dữ liệu thu thập được. Vì nếu số lớp quá nhiều thì lợi ích của việc phân bố tần số ghép lớp không được bao nhiêu so với các dữ liệu thô. Còn nếu số lớp quá ít, nhiềuđiểm số được gộp vào một lớp, như vậy sẽ mất nhiều thông tin.
  • Trong thống kê cơ bản thì các lớp có độ rộng là như nhau. Nhưng trong thống kê chuyên ngành thì độ rộng của các lớp có thể không bằng nhau tùy theo mục đích của nghiên cứu.

Ví dụ 2.1.2 các số liệu thống kê về nhiệt độ cao kỷ lục (tính bằng độ F) của 50 tiểu bang. Hãy lập bảng phân bố tần số ghép lớp với 7 lớp.

112 100 127 120 134 118 105 110 109 112 110 118 117 116 118 122 114 114 105 109 107 112 114 115 118 117 118 122 106 110 116 108 110 121 113 120 119 111 104 111 120 113 120 117 105 110 118 112 114 114

Lý thuyết xác suất và thống kê toàn là gì?

Lý thuyết xác suất và thống kê toán là môn học nghiên cứu các hiện tượng ngẫu nhiên và xử lý số liệu kinh tế – xã hội trong điều kiện bất định, tức là thông tin không đầy đủ. Môn học có 2 phần tương đối độc lập về cấu trúc nhưng gắn rất chặt về nội dung.

Môn xác suất thống kê là gì?

“Xác suất và Thống kê là 2 bộ môn riêng biệt, bản thân từ thống kê có thể hiểu là tổng hợp, ghi chép số liệu về một vấn đề nào đó với những con số đã có sẵn, chính xác. Còn Xác suất là một môn học để tính toán xem tỷ số, tỷ lệ xảy ra với một hiện tượng, một biến cố trong một khoảng thời gian cố định như thế nào.

Làm sao để học tốt môn xác suất thống kê?

[TopTip] Top 7 Tips Thi Môn Xác Suất Thống Kê Đạt Điểm Cao.

Đọc giáo trình trước khi lên lớp. ... .

Hiểu và nhớ các khái niệm về xác suất thống kê ... .

Nắm vững các kiến thức về xác suất thông kê ... .

Học từ đầu và tập trung cao độ ... .

Lựa chọn phương pháp học tập phù hợp. ... .

Đọc nhiều tài liệu tham khảo. ... .

Ôn tập trước kì thi sớm..

Sigma là gì trong xác suất thống kê?

Biểu tượng sigma (chữ thường) (Ký hiệu: σ) thường được sử dụng trong toán học và thống kê để biểu thị cho độ lệch chuẩn trong thống kê và tổng của một tập hợp dữ liệu, giúp tính toán phương sai, trung bình và nhiều thống kê khác.