Sampling trong nghiên cứu là gì

Lấy mẫu tài liệu là một kỹ thuật rất quang trọng trong thống kê, là yếu tố quan trọng góp thêm phần xác lập độ đúng mực của research / survey. Nếu có bất kể sai sót gì trong quy trình lấy mẫu, nó sẽ ảnh hưởng tác động trực tiếp đến hiệu quả sau cuối. Có rất nhiều kỹ thuật giúp tất cả chúng ta tích lũy mẫu dựa trên nhu yếu và trường hợp tất cả chúng ta cần. Bài viết này sẽ lý giải 1 số ít kỹ thuật thông dụng nhất .Bạn đang xem : Sampling method là gì

Để bắt đầu bài viết, chúng ta sẽ làm rõ mốt số khái niệm cơ bản là Quần thể – Population,mẫu – Samplelấy mẫu – sampling

Quần thể – population là tập hợp của những thành viên có một hoặc 1 số ít đặc thù chung. Kích thước của một quần thể là số lượng thành viên trong quần thể đó .Mẫu – sample là một tập con của quần thể. Quá trình chọn một mẫu được gọi là lấy mẫu – sampling. Kích thước mẫu là số lượng thành viên trong tập mẫu .

Hình 1: Ví dụ về lấy mẫu dữ liệuCó rất nhiều kỹ thuật lấy mẫu tài liệu khác nhau, nhưng tất cả chúng ta hoàn toàn có thể gom chúng vào 2 nhóm chính :Lấy mẫu ngẫu nhiên – Probability SamplingLấy mẫu phi ngẫu nhiên – non-probability sampling
Hình 2: Ví dụ so về lấy mẫu ngẫu nhiên và lấy mẫu phi ngẫu nhiênSự độc lạ của hai nhóm trên là giải pháp lấy mẫu có sử dụng “ hàm ngẫu nhiên ” hay không. Với việc sử dụng hàm ngẫu nhiên, mỗi thành viên đều có thời cơ được lựa chọn ngang nhau và đều có thời cơ là một thành viên trong tập mẫu .

Lấy mẫu ngẫu nhiên

Những thuật toán trong nhóm này sử dụng hàm “ ngẫu nhiên ” để bảo vệ rằng mọi thành phần đều có thời cơ lựa chọn ngang nhau. Một tên khác của giải pháp này là random sampling .Một số chiêu thức thuộc nhóm nàySimple Random SamplingStratified samplingSystematic samplingCluster SamplingMulti stage SamplingSimple Random SamplingSimple Random SamplingMỗi thành viên đều có thời cơ lựa chọn ngang nhau vào tập mẫu. Phương pháp này được sử dụng khi tất cả chúng ta không có bất kể thông tin gì về tập population .Ví dụ : Chọn ngẫu nhiên 20 sinh viên trong lớp học 50 sinh viên. Mỗi sinh viên đều có thời cơ được chọn ngang nhau là 1 ⁄ 50 .Stratified samplingStratified samplingKỹ thuật này phân loại mỗi thành viên trong quần thể thành từng nhóm nhỏ dựa trên sự tương đương [ similarity ], nghĩa là những thành viên trong cùng 1 nhóm sẽ như nhau với nhau về một góc nhìn nào đó, và sẽ không giống với những nhóm khác về góc nhìn đó. Và tất cả chúng ta sẽ chọn ngẫu nhiên những những thể trong mỗi nhóm. Ở giải pháp này, tất cả chúng ta cần thông tin cho trước về tập quần thể để tạo những nhóm con .

Hình 2: lấy mẫu Stratified samplingỞ ví dụ trên, tất cả chúng ta sẽ chia tập quần thể thành những nhóm con mặc áo đỏ, mặc áo xanh, mặc áo vàng [ phải biết trước được trong quần thể thằng nào mặc áo màu gì ]. Sau đó sẽ lựa chọn ngẫu nhiên 2 những thể trong mỗi nhóm .Cluster SamplingCluster SamplingToàn bộ tập quần thể sẽ được chia thành từ cụm hoặc thành từng phần. Sau đó tất cả chúng ta sẽ chọn ngẫu nhiên từng cụm. Tất cả những thành viên trong cụm đó sẽ được sử dụng làm tập mẫu. Các cụm được định danh dựa trên những yếu tố xác lập trước. Ví dụ ở trong hình ở trên, những cụm được định danh dựa vào sắc tố của áo mà người đó mặc. Điểm độc lạ ở giải pháp này so với chiêu thức ở trên là chiêu thức ở trên lựa chọn ngẫu nhiên một số ít những thành viên trong mỗi cụm. Còn chiêu thức này sẽ lựa chọn ngẫu nhiên những cụm, và chọn hết toàn bộ những những thể trong cụm đó .Một số kế hoạch để lựa chọn cụm :

Single Stage Cluster Sampling: Các cụm được lựa chọn ngẫu nhiên

Hình 3: Single Stage Cluster Sampling

Two Stage Cluster Sampling: Ở phương pháp này, chúng ta sẽ lựa chọn ngẫu nhiên các cụm, sau đó, trong mỗi cụm, chúng ta sẽ lựa chọn ngẫu nhiên các cá thể trong mỗi cụm

Xem thêm: Vai trò của gia đình trong xã hội hiện nay

Hình 4: Two Stage Cluster SamplingSystematic ClusteringSystematic ClusteringỞ giải pháp này, việc lựa chọn thành viên là có quy luật và không ngẫu nhiên, từ thành viên tiên phong. Các thành viên của tập mẫu được chọn ra từ tập quần thể dựa vào một quy luật nào đó. Đầu tiên, tổng thể những thành viên trong tập quần thể phải được xắp xếp có thứ tự. Sau đó tất cả chúng ta sẽ lựa chọn ngẫu nhiên thành viên tiên phong [ mỗi thành viên đều có Tỷ Lệ ngang nhau ở đây ], và sử dụng quy luật nào đó để rút ra những thành viên tiếp theo .
Hình 5: Systematic ClusteringNhư ví dụ ở trên, tất cả chúng ta xắp xếp những nhân vật áo vàng, xanh, đỏ ngẫu nhiên tuỳ ý theo sự lựa chọn của người ta. Quy luật là cứ 4 người sẽ lấy người cuối. Ấn nút ngẫu nhiên … ta được số 3. Vậy là thành viên tiên phong là nhân vật ở vị trí số 3, tiếp theo sẽ là nhân vật ở vị trí 7, 11, 15,19, 5, …Multi-Stage SamplingMulti-Stage SamplingPhương pháp này là sự tích hợp của một hoặc nhiều giải pháp được miêu tả ở trên .Quần thể được chia thành nhiều cụm [ cluster ] và mỗi cụm được chia vào từng nhóm con [ subgrop – strata ] dựa trên sự tương đương => tất cả chúng ta được một tập những cụm con được gọi là stratum. Chúng ta sẽ lựa nhọn một hoặc một vài strata trong stratum. Quá trình này sẽ được lặp đi lặp lại đến khi không còn cụm nào hoàn toàn có thể phân loại được nữa .Xem thêm : Học Tiếng Pháp Dùng Từ Điển Pháp Anh, Từ Điển Pháp ViệtVí dụ, những vương quốc hoàn toàn có thể được phân loại thành từng bang, thành phố, thành thị, nông thôn. Và tổng thể những khu vực có cùng ký tự đầu hoàn toàn có thể được gom lại thành với nhau tạo thành một strata .
Hình 6: Multi-Stage Sampling

Lấy mẫu phi ngẫu nhiên

Những kỹ thuật nằm trong nhóm này không sử dụng hàm ngẫu nhiên. Kỹ thuật này nhờ vào vào năng lực hiểu biết của những nhà nghiên cứu [ researcher ] trên tập quần thể họ đang có để lựa chọn thành viên cho tập mẫu. Kết quả của việc lấy mẫu hoàn toàn có thể bị lệch .Một số giải pháp thuộc nhóm này là :Convenience SamplingPurposive SamplingQuota SamplingReferral / Snowball SamplingConvenience SamplingConvenience SamplingCác thành viên được chọn dựa trên tính khả dụng của tài liệu. Phương pháp này được sử dụng khi tính khả dụng của tài liệu là hiếm và tốn kém. Do vậy, tất cả chúng ta sẽ lựa chọn mẫu dựa trên sự tiện nghi .Ví dụ, Các nhà nghiên cứu thường hay sử dụng giải pháp này trong những tiến trình đầu của những nghiên cứu và điều tra khảo sát, vì nó thuận tiện, nhanh gọn và cho ra tác dụng nhanh .Purposive SamplingPurposive SamplingPhương pháp lấy mẫu này dựa trên mục tiêu của nghiên cứu và điều tra. Chỉ chọn ra những thành viên trong quần thể tương thích nhất với mục tiêu điều tra và nghiên cứu .Ví dụ : Nếu tất cả chúng ta muốn hiểu được “ tâm lý của những người chăm sóc đến bằng thạc sỹ ” thì tiêu chuẩn lựa chọn thành viên là những người say yes trong câu hỏi “ bạn có hứng thú với bậc thạc sỹ trong nghành nghề dịch vụ … không ? ”. Những người say “ No ” sẽ bị loại khỏi tập mẫu của tất cả chúng ta .Quota SamplingQuota SamplingPhương pháp lấy mẫu này phụ thuộc vào vào 1 số ít tiêu chuẩn thiết lập từ trước. Tỷ lệ của những nhóm thành viên trong tập mẫu phải giống hết trong tập quần thể. Các thành viên được chọn cho đến khi chúng đạt đúng tỷ suất của một loại tài liệu .Ví dụ : Giả sử tất cả chúng ta biết rằng trên toàn cầu này có 6 tỷ người, và 45 % trong số đó là phái mạnh và 55 % là phái đẹp. Vậy thì tất cả chúng ta sẽ lấy mẫu làm thế nào cho tập mẫu tất cả chúng ta cũng phản ánh số đó, nghĩa là trong tập mẫu có 1000 người thì 45 % trong số 1000 người đó phải là nam và 55 % trong số 1000 người đó là nữ .Referral /Snowball SamplingReferral / Snowball SamplingKỹ thuật này được sử dụng khi tất cả chúng ta không biết gì về tập quần thể hoặc tập quần thể hiếm. Lúc đó tất cả chúng ta sẽ tìm ra thành viên tiên phong trong quần thể, rồi nhờ thành viên tiên phong đó gợi ý những thành viên tiếp theo với điều kiện kèm theo thoả nhu cẫu lấy mẫu của nghiên cứu và điều tra. Cứ liên tục như vậy thì size của tập mẫu sẽ tăng lên theo cấp nhân như size quả quả cầu tuyết, nên kỹ thuật này còn có tên gọi khác là Snowball Sampling .

Hình 7: Ví dụ về Snowball Sampling

Ví dụ: Trong tình huống, ngữ cảnh là bạn muốn làm 1 bài khảo sát về những người bị nhiễm HIV, những người này thường có khuynh hướng không cởi mở ở mức độ công cộng và khó cho chúng ta tiếp cận để thu thập thông tin trực tiếp từ họ.

Nhóm khảo sát sẽ triển khai liên hệ 1 người nào đó mà họ biết hoặc người nào đó xung phong làm cầu nối với những người bị nhiễm và tích lũy thông tin từ họ [ những người bị nhiễn tin cậy người được xung phong hơn nhóm khảo sát. Vì nhóm khảo sát là người lạ ] .Hi vọng sau bài viết này, những bạn có thêm nhiều ý tưởng sáng tạo hơn nữa về việc lấy mẫu và những cách để lấy mẫu trong ứng dụng thực tiễn .Bài viết được lược dịch và một số ít hình ảnh được lấy từ nguồn //towardsdatascience.com/sampling-techniques-a4e34111d808

[Last Updated On: 18/06/2021 by Lytuong.net]

Mục đích của tất cả các phương pháp lấy mẫu là đạt được mẫu đại diện cho cả quần thể nghiên cứu. Khi chọn phương pháp lấy mẫu thì cần hiểu rõ các đặc tính của quần thể nghiên cứu để xác định cỡ mẫu quan sát đại diện và để đánh giá tương đối chính xác quần thể.

Trong nghiên cứu, không thể quan sát hết toàn bộ các cá thể trong quần thể, mà chỉ chọn một số lượng đủ các cá thể đại diện hay còn gọi là mẫu thí nghiệm. Phương pháp chọn mẫu thí nghiệm rất quan trọng, bởi vì có liên quan tới sự biến động hay độ đồng đều của mẫu. Có hai phương pháp chọn mẫu: [1] Chọn mẫu không xác suất [không chú ý tới độ đồng đều] và [2] chọn mẫu xác suất [đề cập tới độ đồng đều].

Chọn mẫu không có xác suất

Phương pháp chọn mẫu không xác suất là cách lấy mẫu trong đó các cá thể của mẫu được chọn không ngẫu nhiên hay không có xác suất lựa chọn giống nhau. Điều này thể hiện trong cách chọn mẫu như sau:

  • Các đơn vị mẫu được tự lựa chọn mà không có phương pháp.
  • Các đơn vị mẫu rất dễ dàng đạt được hoặc dễ dàng tiếp cận. Thí dụ chọn những hộ trên những con đường dễ đi.
  • Các đơn vị mẫu được chọn theo lý do kinh tế, thí dụ trả tiền cho sự tham dự.
  • Các đơn vị mẫu được quan tâm bởi người nghiên cứu trong cách “điển hình” của quần thể mục tiêu. Thí dụ người nghiên cứu chỉ quan tâm đến các nhân vật điển hình trong quần thể nghiên cứu, để so sánh với các nhân vật khác.
  • Các đơn vị mẫu được chọn mà không có sự thiết kế rõ ràng [thí dụ: chọn 50 người đầu tiên đến buổi sáng].

Phương pháp chọn mẫu không có xác suất thường có độ tin cậy thấp. Mức độ chính xác của cách chọn mẫu không xác suất tùy thuộc vào sự phán đoán, cách nhìn, kinh nghiệm của người nghiên cứu, sự may mắn hoặc dễ dàng và không có cơ sở thống kê trong việc chọn mẫu.

Chọn mẫu xác suất

Cơ bản của việc chọn mẫu xác suất là cách lấy mẫu trong đó việc chọn các  cá thể của mẫu sao cho mỗi cá thể có cơ hội lựa chọn như nhau, nếu như có một số cá thể có cơ hội xuất hiện nhiều hơn thì sự lựa chọn không phải là ngẫu nhiên. Để tối ưu hóa mức độ chính xác, người nghiên cứu thường sử dụng phương pháp lấy mẫu ngẫu nhiên.

Các phương pháp chọn mẫu ngẫu nhiên

– Chọn mẫu ngẫu nhiên đơn giản [simple random]

Cách đơn giản nhất của việc chọn các cá thể của mẫu trong cách chọn mẫu ngẫu nhiên là sử dụng xác suất. Việc lựa chọn n các cá thể từ một quần thể sao cho các cá thể có cơ hội bằng nhau hay một xác suất bằng nhau trong phương pháp nầy. Thí dụ: Một trường học có 1.000 sinh viên, người nghiên cứu muốn chọn ra 100 sinh viên để nghiên cứu về tình trạng sức khỏe trong số 1.000 sinh viên. Theo cách chọn mẫu đơn giản thì chỉ cần viết tên 1.000 sinh viên vào trong mẫu giấy nhỏ, sau đó bỏ tất cả vào trong một cái thùng và rồi rút ngẫu nhiên ra 100 mẫu giấy. Như vậy, mỗi sinh viên có một cơ hội lựa chọn như nhau và xác suất chọn ngẫu nhiên một sinh viên trên dễ dàng được tính. Thí dụ trên ta có quần thể N = 1.000 sinh viên và cỡ mẫu n = 100 sinh viên. Như vậy, sinh viên của trường được chọn trong cách lấy mẫu ngẫu nhiên sẽ có xác suất là n/[N x 100] hay 100/[1000 x 100] = 10%.

Một cách chọn mẫu ngẫu nhiên khác là sử dụng bảng số ngẫu nhiên trong sách thống kê phép thí nghiệm hoặc cách chọn số ngẫu nhiên bằng các chương trình thống kê trên máy tính.

Phương pháp chọn mẫu ngẫu nhiên trong các thí nghiệm lấy mẫu trong thực tế được thể hiện trong hình 1.

Hình 1. Phương pháp chọn mẫu ngẫu nhiên trong thực tế

– Chọn mẫu phân lớp [stratified samples]

Chọn mẫu phân lớp được thực hiện khi quần thể mục tiêu được chia thành các nhóm hay phân lớp. Trong phương pháp lấy mẫu phân lớp, tổng quần thể [N] đầu tiên được chia ra thành L lớp của các quần thể phụ N1, N2 … NL, như vậy:

Để áp dụng kỹ thuật chọn mẫu phân lớp thì trước tiên người nghiên cứu cần nắm các thông tin và các số liệu nghiên cứu trước đây có liên quan đến cách lấy mẫu phân lớp. Sau đó, người nghiên cứu sẽ xác định cỡ mẫu và chọn ngẫu nhiên các cá thể trong mỗi lớp.

Thí dụ: khi nghiên cứu về mức độ giàu nghèo của một vùng nghiên cứu có 4 huyện [4 phân lớp], mỗi huyện có số hộ gia đình khác nhau được biết trong Bảng bên dưới.

Người nghiên cứu muốn thực hiện 200 cuộc phỏng vấn hộ gia đình trong vùng nghiên cứu, như vậy cỡ mẫu của mỗi huyện sẽ được tính theo tỷ lệ phần trăm trong Bảng  như sau:

Bảng 1. Thí dụ về cách chọn mẫu phân lớp

Huyện Số hộ trong mỗi lớp Tỷ lệ hộ trong mỗi lớp [%] Cỡ mẫu phỏng vấn ỡ mỗi lớp
A 250 25 50
B 150 15 30
C 400 40 80
D 200 20 40
1000 100 200

Nếu như số hộ của 4 huyện gần như nhau, người nghiên cứu chỉ cần chọn 50 cuộc phỏng vấn trong mỗi huyện và sau đó chọn mẫu ngẫu nhiên trong mỗi lớp.

Cũng trong nghiên cứu trên, nếu người nghiên cứu không phân chia các huyện ra thành các lớp, thì phương pháp lấy mẫu ngẫu nhiên phỏng vấn hộ gia đình trong vùng nghiên cứu sẽ sai và số liệu thu thập sẽ không đại diện cho vùng nghiên cứu, do mẫu có thể tập trung ở một huyện nào đó.

Một số nghiên cứu thường được chia lớp trong quần thể mục tiêu gồm:

  • Phân lớp quần thể mục tiêu là các thành phố, tỉnh, huyện;
  • phân lớp theo vùng sinh thái khác nhau;
  • phân lớp quần thể mục tiêu là các hộ gia đình theo mức độ giàu nghèo, trình độ học vấn, …;

Trong phương pháp chọn mẫu phân lớp, các quần thể phụ là các vùng chia phụ hay các lô được chia trong Hình 2 khi đã xác định các yếu tố như loại đất, dạng đời sống thực vật hoặc dạng địa hình, … Các điểm được chọn ngẫu nhiên trong mỗi vùng phụ được thể hiện trong Hình 2.

Hình 2 Phương pháp chọn mẫu phân lớp

– Chọn mẫu hệ thống [systematic samples]

Đôi khi cách chọn đơn vị mẫu ngẫu nhiên không tốt hơn cách chọn mẫu hệ thống. Trong chọn mẫu hệ thống, cỡ mẫu n được chọn [có phương pháp tính xác suất tương tự] từ một quần thể N. Cách lấy mẫu hệ thống là khung mẫu giống như là 1 “hàng” của các đơn vị mẫu, và mẫu như là một chuổi liên tiếp của các điểm số có khoảng cách bằng nhau theo hàng dọc.

Thí dụ chọn mẫu hệ thống như sau: muốn nghiên cứu 1 thành viên trong mỗi nhóm có 10 cá thể, quần thể có 10 nhóm [tổng cá thể của quần thể là 100], đánh số cá thể từ 1-100. Lúc này nhóm 1 được đánh số từ 1-10; nhóm 2 từ 11-20; nhóm 3 từ 21-30; …nhóm 10 từ 91-100.

Trước tiên cần sắp xếp thứ tự các đơn vị mẫu [thí dụ theo thứ tự gia tăng trong trường hợp này]. Sau đó chọn điểm đầu tiên bất kỳ có giá trị < 10 [thí dụ chọn ngẫu nhiên một số trong khoảng từ 1-10 là 7. Số cá thể tiếp theo sẽ cộng thêm là 10. Như vậy các thành viên được chọn sẽ có số thứ tự là 7, 17, 27, 37, 47,… 97.

Nhóm 1:

  1. 93535459
  2. 93781078
  3. 93732085
  4. 93763450
  5. 93763450
  6. 94407382
  7. 94409687

Chủ Đề