Kiểm định giả thiết

1. Khái niệm:

Kiểm định giả thiết là một bài toán quan trọng trong đời sống cũng như trong thống kê, kiểm toán. Ta thường gặp 1 cặp giả thiết đối nghịch nhau, bằng khả năng của mình, ta phải xác định xem giả thiết nào đúng.

- Giả thiết thống kê là các giả thiết về trung bình (μ), phương sai mẫu (σ2), tỉ lệ (f),… của đám đông (mẫu ) đang xét.

- Nội dung của bài toán kiểm định: Cho hai giả thiết H0, H1 (thường là đối nghịch nhau). Dựa vào các số liệu thu được, ta phải quyết định xem giả thiết H0 đúng hay sai. Giả thiết H1 đối nghịch với giả thiết H0 gọi là đối thiết của H0 . Việc đưa ra quyết định chấp nhận hay bác bỏ một giả thiết thống kê gọi là làm kiểm định (hay kiểm định thống kê).

Ví dụ: Khi ta cảm thấy mệt mỏi, ta nghi rằng “mình bị bệnh” – đây là giả thiết H0, (H1 là “mình không mắc bệnh”) và việc đi khám bệnh để xác định xem mình có bệnh hay không, chính là xác định xem giả thiết H0 có đúng hay không. Việc này chính là kiểm định giả thiết.

Khi giả thiết H0 có dạng: H0 : a = a0 (a là 1 tham số nào đó của đại lượng ngẫu nhiên ta đang nghiên cứu; a0 là giá trị đã biết)

Khi đó: H1 có thể là: H1 : a ≠ a0 . Việc kiểm định giả thiết với đối thiết dạng này được gọi là kiểm định hai phía (vì miền bác bỏ nằm về hai phía của miền chấp nhận).

Giả thiết đối dạng H1 : a ≠ a0 thường được áp dụng khi ta chưa biết rõ trong thực tế a > a0 hay a< a0 .

Nhưng nếu qua quan sát, phân tích ta biết được xu hướng là a > a0 thì ta có thể đặt đối thiết H1 : a > a0 . Hoặc ta biết được khả năng a <a0 thì đặt đối thiết H1 : a < a0 .

Nếu kiểm định giả thiết với giả thiết đối dạng H1 : a > a0 thì được gọi là kiểm định giả thiết về phía bên phải. Nếu kiểm định giả thiết với giả thiết đối dạng H1 : a < a0 thì được gọi là kiểm định giả thiết về phía bên trái

2. Các sai lầm mắc phải khi làm kiểm định:

Khi làm kiểm định, ta có thể mắc phải các sai lầm sau đây:

  • Sai lầm loại 1: Bác bỏ 1 giả thiết đúng ( Bác bỏ H0 khi H0 đúng).
  • Sai lầm loại 2: Chấp nhận 1 giả thiết sai (Nhận H0 khi H0 sai).

Kết luận

Thực tế

Chấp nhận H0

Bác bỏ H0

H0 đúng

Kết luận đúng

Sai lầm loại 1

H0 sai

Sai lầm loại 2

Kết luận đúng

Ví dụ:

1. Dựa vào các thông tin dự báo thời tiết, trung tâm khí tượng thủy văn dự báo 1 cơn bão sắp đến sẽ đổ bộ vào miền Nam thì H0 : “Bão đổ bộ vào miền Nam” (H1 :”bão không đổ bộ vào miền Nam). Khi đó sai lầm loại 1 là rất tai hại vì khi đó, do không kịp thời chuẩn bị ứng phó nên bão sẽ gây ra những thiệt hại nặng nề.

2. Cho đậu 1 thí sinh yếu kém (mà đáng ra phải rớt) hoặc cho rớt 1 thí sinh giỏi (mà đáng lẽ ra phải đậu) đều là những sai lầm tai hại. Thực tế, cho thấy, có những cuộc thi mà kết quả chỉ dựa vào số lượng tin nhắn bình chọn thì chứa đựng nhiều sai lầm.

Tất nhiên, khi kiểm định một giả thiết. Ta cố gắng hạn chế các sai lầm, tức là cần giảm thiểu tối đa xác suất phạm cả hai sai lầm. Tuy nhiên, đây là điều trong thực tế không thể làm được vì nếu ta muốn giảm sai lầm loại 1 thì sẽ làm tăng xác suất sai lầm loại 2 và ngược lại.

Trong thống kê, ta quy ước rằng lỗi lầm loại 1 là tai hại hơn, và cần tránh trước. Do đó, với xác suất α nhỏ cho trước, ta cần ra quyết định sao cho: P(Phạm sai lầm loại 1) ≤ α . α gọi là mức ý nghĩa của kiểm định.

3. Một số bài toán kiểm định thường gặp:

3.1 Kiểm định giả thiết về số trung bình:

Giả sử  đại lượng ngẫu nhiên gốc X trong tổng thể phân phối theo qui luật chuẩn với kỳ vọng là μ và phương sai mẫu σ2, Cần kiểm định giả thiết:

\left \{ \begin{array}{c} H_0 : {\mu} = a_0 \\ H_1 : {\mu} \ne a_0 \\ \end{array} \right. (a_0 là 1 giá trị đã biết khi đặt H_0 )

Để kiểm định giả thiết trên, ta tiến hành lấy mẫu với kích thước n và xét các trường hợp sau:

1. Trường hợp 1:  σ2 đã biết:

Giả sử  X \sim N(\mu, \sigma^2) , (X_1,X_2,...,X_n) là mẫu độc lập của X. Khi đó: Z ={ \dfrac{\overline{X}-\mu}{\sigma}}\sqrt{n} \sim N(0;1) Với mức ý nghĩa \alpha , chọn miền bác bỏ giả thiết H_0 : W=\left\{ (X_1, X_2, ..., X_n): |Z| > c_{\alpha} \right\}

trong đó c_{\alpha} thỏa: \int\limits_{-c_{\alpha}}^{c_{\alpha}}{ \dfrac{1}{\sqrt{2{\pi}}}}e^{- \dfrac{t^2}{2}} \, dt = 1 - \alpha = \gamma

Rõ ràng c_{\alpha} = u\left({ \dfrac{\gamma}{2}} \right) và được xác định bởi bảng giá trị tích phân Laplace.

Ví dụ: mức ý nghĩa \alpha = 0,05 \Rightarrow z_{\alpha} = 1,96 ; \alpha = 0,01 \Rightarrow z_{\alpha} = 2,58

Hoàn toàn tương tự cho các phép kiểm định trung bình 1 phía, ta có thể tóm tắt bởi bảng sau:

kiem-dinh12. Trường hợp 2: σ2 chưa biết:

Giả sử  X \sim N(a, \sigma^2) , (X_1,X_2,...,X_n) là mẫu độc lập của X. Khi đó: T ={ \dfrac{\overline{X}-a}{s}}\sqrt{n} \sim t(n-1;\alpha) Với mức ý nghĩa \alpha , chọn miền bác bỏ giả thiết H_0 :

W = \left \{ (X_1, X_2, ..., X_n): |T| > t_{n-1,{\alpha}} \right\}

trong đó t(n-1;\alpha) là phân phối Student n-1 bậc tự do.

Nếu n đủ lớn (n \ge 30 ) thì t_{n-1,\alpha} \approx c_{\alpha}

Hoàn toàn tương tự cho các phép kiểm định trung bình 1 phía, ta có thể tóm tắt bởi bảng sau:

kiem-dinh-23.2. Kiểm định so sánh 2 giá trị trung bình :

Cho X \sim N(a_1, \sigma^2) , (X_1,X_2,...,X_n) là mẫu độc lập của X. Y \sim N(a_2, \sigma^2) , (Y_1,Y_2,...,Y_n) là mẫu độc lập của X.

Trường hợp 1: Nếu \sigma^2 đã biết.

Xét phép kiểm định: \left \{ \begin{array}{c} H_0 : a_1 = a_2 \\ H_1 : a_1 \ne a_2 \\ \end{array} \right.

Khi đó: T ={ \dfrac{\overline{X}-\overline{Y}}{{\sigma}}{\sqrt{\left({ \dfrac{1}{n}}+{ \dfrac{1}{m}}\right)}}} \sim t(m+n-2;\alpha)

Với mức ý nghĩa \alpha , chọn miền bác bỏ giả thiết H_0 :

W=\left\{ (X_1, X_2, ..., X_n), (Y_1,Y_2,...,Y_n): |T| > c_{\alpha} \right\}

c_{\alpha} được tra từ bảng phạn phối  Student (m+n-2) bậc tự do.

Trường hợp 2: Nếu \sigma^2 chưa biết.

Khi đó:T ={ \dfrac{\overline{X} - \overline{Y}}{\sqrt{\left({ \dfrac{1}{n}}+{ \dfrac{1}{m}}\right).{ \dfrac{(n-1)S_X^2+(m-1)S_Y^2}{m+n-2}}}}} \sim t(m+n-2,{\alpha})

Với mức ý nghĩa \alpha , chọn miền bác bỏ giả thiết H_0 :

W=\left\{ (X_1, X_2, ..., X_n), (Y_1,Y_2,...,Y_n): |T| > c_{\alpha} \right\}

trong đó: c_{\alpha} được tra từ bảng phân phối  Student (m+n-2) bậc tự  do. S_X^2 , S_Y^2 tương ứng là phương sai mẫu của X và Y.

3.3 Kiểm định giả thiết về tỉ lệ:

1. Kiểm định tỉ lệ:Giả sử trong 1 đám đông Ω , tỉ lệ các phần tử mang dấu hiệu  A nào đó là p chưa biết. Từ mẫu (X_1,X_2,...,X_n) ta có tỉ lệ quan sát được là: f = { \dfrac{m}{n}}

Cần kiểm định giả thiết: \left \{ \begin{array}{c} H_0 : p = p_0 \\ H_1 : p \ne p_0 \\ \end{array} \right.

Với mức ý nghĩa \alpha , chọn miền bác bỏ giả thiết H_0 :

W=\left\{ (X_1, X_2, ..., X_n): |U| > c_{\alpha} \right\} , với U = { \dfrac{(f-p_o){\sqrt{n}}}{\sqrt{p_o(1-p_0)}}}

Hoàn toàn tương tự cho các phép kiểm định trung bình 1 phía, ta có thể tóm tắt bởi bảng sau:

kiem-dinh-32. Kiểm định sự bằng nhau của 2 tỉ lệ:

Giả sử p_1,p_2 tương ứng là tỉ lệ các phần tử mang một dấu hiệu A nào đó từ 2 đám đông ma ta chưa biết.

Mẫu 1 có kích thước n có n_1 cá thể mang dấu hiệu A

Mẫu 2 có kích thước n có n_2 cá thể mang dấu hiệu A

Ta đặt: f_1 = { \dfrac{n_1}{n}} , f_2 = { \dfrac{n_2}{n}} , p* = { \dfrac{n_1+m_1}{n+m}} , n* = { \dfrac{n.m}{n+m}}

Khi đó: U ={ \dfrac{f_1-f_2}{\sqrt{\left({ \dfrac{1}{n}}+{ \dfrac{1}{m}}\right).p*(1-p*)}}} = { \dfrac{(f_1-f_2){\sqrt{n*}}}{\sqrt{p*(1-p*)}}}

Xét phép kiểm định: \left \{ \begin{array}{c} H_0 : p_1 = p_2 \\ H_1 : p_1 \ne p_2 \\ \end{array} \right.

Với mức ý nghĩa \alpha , chọn miền bác bỏ giả thiết H_0 :

W=\left\{ (X_1, X_2, ..., X_n), (Y_1,Y_2,...,Y_n): |U| > c_{\alpha} \right\}

  1. 16.12.2008 lúc 09:03 | #1

    thầy cho em hỏi về 1 bài như sau:
    có tài liệu khẳng định rằng: thời gian chờ phục vụ trung bình của mỗi khách hàng ở 1 hệ thống phục vụ A tối đa là 22 phút. Một mẫu điều tra qua 1 số khách hàng của hệ thống khách hàng này cho bảng kết quả sau:
    thời gian phục vụ/1khách | số khách
    [5-10) | 5
    [10-15) | 15
    [15-20) | 40
    [20-25) | 80
    [25-30) | 50
    [30-35) | 15
    [35-40] | 5

    a) với mức ý nghĩa 5% hãy kiểm định giả thiết trên
    b) với độ tin cậy 95% thì dựa vào kết quả điều tra , thời gian chờ phục vụ của mỗi khách hàng ở hệ thống này trung bình vào khoảng bao nhiêu?
    c) với độ tin cậy 95% , dựa vào kết quả điều tra hãy ước lượng khoảng tin cậy cho tỷ lệ khách hàng có thời gian chờ phục vụ không dưới 22 phút

  2. 2Bo02B
    16.12.2008 lúc 09:53 | #2

    Đầu tiên em phải tính trung bình mẫu và phương sai hiệu chỉnh của mẫu.
    a. Ta có bài toán kiểm định: H_0: \mu = 22 ; H_1: \mu \ne 22
    Do kích thước mẫu lớn hơn 30, và sigma chưa biết nên ta chọn phép kiểm định:
    U_{qs} = { \dfrac{|{\overline{X}}-\mu |}{s}}.{ \sqrt{n}}
    với miền bác bỏ:
    W = \left\{ U_{qs} > u\left( \dfrac{\gamma}{2} \right) \right\} Với mức ý nghĩa 5% thì u(0,475) = 1,96
    b. Dùng công thức ước lượng giá trị trung bình, với trường hợp n > 30 và sigma chưa biết:
    Ta có khoảng tin cậy: d = u\left( \dfrac{\gamma}{2} \right).{ \dfrac{s}{\sqrt{n}}} s là độ lệch chuẩn hiệu chỉnh. Khi đó:
    \overline{X} - d \le \mu \le \overline{X} + d
    c. Dùng công thức ước lượng tỉ lệ với tần suất f = { \dfrac{150}{210}} = \dfrac{5}{7}
    ta có: khoảng tin cậy: d = u\left( \dfrac{\gamma}{2} \right).\sqrt{ \dfrac{f(1-f)}{n}}

  3. 16.12.2008 lúc 17:31 | #3

    thầy ơi cho em hỏi , tại sao không phải là :
    H_1: p>22
    hay H_1: p<22
    mà là H_1= p khác 22

    ( em không gõ được chữ muy nên thay bằng p)

    trong bài nó ghi là thời gian chờ tối đa là 22 phút , vậy cao nhất là 22 phút , nên p < 22

  4. 18.12.2008 lúc 19:58 | #4

    có ai giải thích giùm mình không

  5. 2Bo02B
    18.12.2008 lúc 20:08 | #5

    Sở dĩ, ở đây không chọn \mu < 22 . Vì với số liệu tối đa 22 phút chỉ là 1 giả thiết do 1 tài liệu đưa ra, vả lại, đối với trung bình của mẫu ta có : \overline{X} = 22,738 lớn hơn so với số con số mà tài liệu đó đưa ra, mà giá trị 22,738 không quá lệch về bên phải so với 22 nên ta cũng không chọn đối thiết \mu>22 , mà chọn đối thiết là \mu \ne 22 .

  6. 19.12.2008 lúc 07:39 | #6

    em cảm ơn thầy
    sẵn đây thầy xem giùm em giải thiết kiểm định của bài này xem sao
    http://thunhan.wordpress.com/cung-trao-doi/trao-doi-ve-xst/trang-2/

  7. 21.12.2008 lúc 17:38 | #7

    ở một cuộc bầu cử , 1 đảng tuyên bố có 45% dân số sẽ bầu cho ứng cử viên A của đảng họ. Qua điều tra 2000 người có 862 người bỏ phiếu cho ứng cử viên A, Với mức ý nghĩa 5% hãy kiểm chứng lời nhận định trên.
    bài này ta thấy
    H_0: \mu = 0.45
    H_1: \mu < 0.45 ( do 862 / 2000 = 0.431 < 0.45)
    lập luận của em không biết có đúng không vậy thầy

    • 2Bo02B
      21.12.2008 lúc 22:56 | #8

      Nếu đề không yêu cầu gì thêm về phép kiểm định thì bạn chọn phép kiểm định này là hợp lý

  8. Lee-Leex
    10.01.2009 lúc 22:02 | #9

    Theo mình
    H_0:\mu=0.45
    H_1:\mu\ne 0.45
    Vì bài toán chỉ yêu cầu kiểm chứng nhận định , cần để ý: thông tin tần suất của một mẫu không quyết định hướng của đối thuyết bài toán một phía .

  9. đặng Thị Hương
    15.03.2009 lúc 09:52 | #10

    Thầy ơi thầy có thể giúp em giải thích ý nghĩa của các tham số ước lượng từ phương pháp OLS, phương saicủa tham số ước lượng? sai số chuẩn của tham số ước lượng? Và phân biệt mức độ tin cậy và mức độ ý nghĩa thống kê ?
    Em hiểu ý nghĩa của các ý trên nhưng để giải thích cụ thể thì thật khó ( Em học tại chức ) . Thầy giúp em với . Cảm ơn thầy!

    • 17.03.2009 lúc 21:04 | #11

      1. Phương sai của một biến ngẫu nhiên là một độ đo sự phân tán thống kê của biến đó, nó hàm ý các giá trị của biến đó thường ở cách giá trị kỳ vọng bao xa.
      2. Độ lệch chuẩn, hay độ lệch tiêu chuẩn, là một đại lượng thống kê mô tả dùng để đo mức độ phân tán của một tập dữ liệu đã được lập thành bảng tần số. Có thể tính ra độ lệch chuẩn bằng cách lấy căn bậc hai của phương sai.
      Khi hai tập dữ liệu có cùng giá trị trung bình cộng, tập nào có độ lệch chuẩn lớn hơn là tập có dữ liệu biến thiên nhiều hơn. Trong trường hợp hai tập dữ liệu có giá trị trung bình cộng không bằng nhau, thì việc so sánh độ lệch chuẩn của chúng không có ý nghĩa.
      Khi lấy độ lệch chuẩn chia cho căn bậc hai của số lượng quan sát trong tập dữ liệu, sẽ có giá trị của sai số chuẩn. Nghĩa là sai số cho phép của việc ước lượng.
      3. Mức ý nghĩa là giới hạn trên của xác suất phạm sai lầm loại I. Nghĩa là: sai lầm loại 1: bác bỏ giả thiết H, nhưng thực ra H đúng và ta cần chọn giả thiết kiểm định nào để sao cho xác suất phạm sai lầm loại I không vượt quá mức ý nghĩa.
      4. Độ tin cậy: với mức ý nghĩa \mathop \alpha thì xác suất để chấp nhận giả thiết H mà không mắc sai lầm là 1-\alpha . Nghĩa là: độ tin cậy chính là xác suất chấp nhận giả thiết H mà xác suất phạm phải sai lầm loại 1 bé hơn mức ý nghĩa.

  10. km
    11.05.2009 lúc 22:30 | #12

    Thầy ơi cho em hỏi về 2 loại sai ầm khi kiểm định :
    Tại sao lại cho rằng sai lầm loại 1 là nguy hiểm hơn loại 2 ? để chứng minh nó nguy hiểm hơn thì ta cần đề cập vấn đề gì ạ!

    • 11.05.2009 lúc 22:43 | #13

      Em có thể xem ví dụ phân tích ở trên.

  11. Ha San
    13.05.2009 lúc 19:17 | #14

    Thầy cho em hỏi mối quan hệ giữa sai lầm loại 1 và sai lầm loại 2. Biểu diễn 2 giá trị alpha và beta trên đồ thị.
    Em cảm ơn Thầy nhiều!

    • 14.05.2009 lúc 21:33 | #15

      Sai lầm loại 1: Bác bỏ giả thiết H, nhưng thực tế H đúng
      Sai lầm loại 2: Chấp nhận giả thiết H, nhưng thực tế H sai.
      Chúng ta mong muốn chọn giả thiết nào để cả 2 khả năng phạm sai lầm đều bé. Song trong thống kê toán học, người ta đã chứng minh điều ấy khó thực hiện. Vì vậy người ta thường chọn các quy tắc sao cho sai lầm loại 1 không vượt quá một hằng số \alpha cho trước. Sau đó người ta chọn trong các quy tắc có mức \alpha một quy tắc có sai lầm loại 2 càng bé càng tốt

  12. 14.05.2009 lúc 17:10 | #16

    thầy có thể cho em một số tài liệu về phương pháp kiểm định bằng nhau về tỉ lệ không a?Do em đang cần tài liệu để hoàn thành đề án của mình. Em cảm ơn thầy nhiều ạ

    • 15.05.2009 lúc 05:59 | #17

      Kiểm định bằng nhau về tỉ lệ chính là bài toán kiểm định so sánh 2 tỉ lệ. Cái này thì hầu như các sách thống kê đều có. Em có thể xem trong các quyển Probabilities & Statistic và các giáo trình tiếng Việt.

  13. nguyen thi ngoc trang
    22.05.2009 lúc 22:14 | #18

    Em chào Thầy
    Thầy ơi, em thấy phần kiểm định giả thiết thống kê này mà có thêm vài ví dụ thì sinh viên dễ dàng tiếp cận hơn. Thầy cho chúng em một vài ví dụ điển hình nhen thầy. Em cảm ơn

  14. Điệp
    23.05.2009 lúc 09:48 | #19

    Thày cho em hỏi chút!
    Nhưng để áp dụng những bài toán đó vào thực tế thì người ta phải biết được độ tin cậy (1-α) trong ước lượng và mức ý nghĩa α trong kiểm định.Thày cho em hỏi thế để xác định các đại lượng đó người ta phải làm như thế nào

  15. trang
    30.06.2009 lúc 08:52 | #20

    cho e hoi luc khi cho do lech chuan thi tinh Uqs hay tinh Tqs a. E cam on thay

  1. No trackbacks yet.