Two Sample T-Test

R Programming Basis

R Code Description for Two Sample T-Test

Yeongeun Jeon
08-10-2022

1. 서론

이전 장에서는 하나의 모집단에 대한 추론의 방법을 공부하였는데, 하나의 모집단에 관한 것뿐 아니라 두 모집단 간의 차이가 관심의 대상이 되는 경우도 많이 있다. 예를 들어, 기존의 치료약과 새롭게 개발된 치료약의 효능을 비교한다든지, 두 종류의 강의방법에 의한 학습효과를 비교한다든지, 시판되는 다이어트 상품의 효과를 알아보기 위해 사용 전후의 체중을 비교한다든지 하는 일들이 이와 같은 경우에 해당한다. 두 모집단의 비교를 위한 추론과정은 데이터를 어떻게 수집하느냐에 따라 추론방법이 달라지게 된다. 실험의 대상인 실험단위를 임의로 두 그룹으로 나누어 한 그룹에는 처리 1을, 다른 그룹에는 처리 2를 배정하는 경우 각 그룹에서 얻어지는 반응값들은 서로 영향을 주지 않고 독립이다. 따라서, 두 그룹에서 얻어진 반응값들은 두 개의 모집단으로부터 얻어진 두 개의 독립인 표본데이터라고 생각할 수 있다. 이와 같은 경우를 “독립인 두 표본으로부터 두 모집단을 비교”하는 경우라고 한다. 이에 반해, 하나의 실험단위에 처리 1과 2를 모두 배정하는 경우 얻어지는 반응값들은 서로 독립이라고 할 수 없다. 이와 같은 경우를 “짝비교”라고 한다. 이 장에서는 두 경우의 모평균 차에 대한 통계적 가설 검정 방법을 살펴보고자 한다.

출처 : https://statools.tistory.com/262

2. 독립 표본에 대한 모평균 검정

독립인 두 개의 표본으로부터 두 모집단, 혹은 두 가지의 처리효과를 비교하는 통계추론의 방법을 살펴본다.


2-1. 표본의 크기가 큰 경우


2-2. 표본의 크기가 작은 경우


2-2-1. 모분산이 동일할 때


2-2-2. 모분산이 동일하지 않을 때


2-3. 예제

t.test(x, y, var.equal = FALSE, mu = 0, alternative = c("two.sided", "less", "greater"), conf.level,...)

Caution! 두 모집단의 모분산이 동일한 지 검정을 수행하기 위해 함수 var.test()를 이용할 수 있다.

var.test(x, y,  ratio = 1, alternative = c("two.sided", "less", "greater"), conf.level,...)

예제 1

목초의 종류에 따른 우유생산량의 차이를 알아보기 위해서 25마리의 젖소를 대상으로 3주 동안 임의로 추출된 12마리의 젖소에게는 인공적으로 건조시킨 목초를 주고, 13마리의 젖소에게는 들판에서 말린 목초를 주었다. 각 젖소의 일일 평균 우유생산량이 다음과 같이 주어졌다고 할 때 들판에서 자연적으로 말린 목초로 사육하는 젖소가 인공적으로 말린 목초로 사육하는 젖소보다 우유생산량이 많다고 할 수 있겠는가? 유의수준 0.05로 검정하라.

들판에서 말린 목초 44 44 56 46 47 38 58 53 49 35 46 30 41
인공적으로 말린 목초 35 47 55 29 40 39 32 41 42 57 51 39

※ 예제에서 두 집단은 정규분포를 따른다고 가정한다. 즉, 들판에서 말린 목초를 준 젖소의 우유생산량 \(X\sim N(\mu_1, \sigma^2_1)\), 인공적으로 말린 목초를 준 젖소의 우유생산량 \(Y\sim N(\mu_2, \sigma^2_2)\)라고 가정한다.

x <- c(44, 44, 56, 46, 47, 38, 58, 53, 49, 35, 46, 30, 41)
y <- c(35, 47, 55, 29, 40, 39, 32, 41, 42, 57, 51, 39)


var.test(x, y, ratio = 1, alternative = "two.sided")

    F test to compare two variances

data:  x and y
F = 0.83751, num df = 12, denom df = 11, p-value = 0.7621
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.2441996 2.7817745
sample estimates:
ratio of variances 
         0.8375102 

Result! 먼저, 두 모집단의 모분산이 동일한지 검정하기 위해 함수 var.test()를 수행하였다. 귀무가설은 \(H_0 : \sigma^2_1/\sigma^2_2=1\), 대립가설은 \(H_1 : \sigma^2_1/\sigma^2_2\ne 1\)일 때, 귀무가설 \(H_0\)가 참이라는 가정 하에서 검정통계량 \(F=S^2_1/S^2_2\)\(F(12, 11)\)를 따른다. 관측된 데이터에 의해 계산된 검정통계량 값은 \(f=0.83751\)이며, 유의확률 \(p\)-값은 0.7621이다. 이에 근거하여, 유의수준 5%에서 \(p\)-값이 0.05보다 크기 때문에 귀무가설 \(H_0\)을 기각할 수 없다. 즉, 주어진 두 집단의 데이터의 모분산은 동일하다.

# t.test
t.test(x, y, var.equal = TRUE, mu = 0, alternative = "greater")

    Two Sample t-test

data:  x and y
t = 0.86755, df = 23, p-value = 0.1973
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
 -2.83279      Inf
sample estimates:
mean of x mean of y 
 45.15385  42.25000 

Caution! 예제에서 귀무가설은 \(H_0 : \mu_1-\mu_2 \le 0\), 대립가설은 \(H_1 : \mu_1-\mu_2 > 0\)이다. \(H_0\)이 참이라는 가정 하에서 검정통계량은 \(T=\frac{(\bar{X}-\bar{Y}) }{8.361252\sqrt{\frac{1}{13}+\frac{1}{12}}}\sim t(23)\)이다.
Result! 관측된 데이터에 의해 계산된 각 집단의 표본평균은 45.15385, 42.25이기 때문에 검정통계량 값은 \(t=\frac{45.15385-42.25}{8.361252\sqrt{\frac{1}{13}+\frac{1}{12}}}=0.86755\)이며, 유의확률 \(p\)-값은 0.1973이다. 이에 근거하여, 유의수준 5%에서 \(p\)-값이 0.05보다 크기 때문에 귀무가설 \(H_0 : \mu_1-\mu_2 \le 0\)을 기각할 수 없다. 즉, 들판에서 말린 목초가 인공적으로 말린 목초보다 우유를 더 많이 생산하게 하는 사료라고 말할 수 없다.


예제 2

공장 노동자들이 숙련작업을 수행하기 위해 교육받는 2개의 프로그램을 비교하기 위해 20명의 노동자들이 실험에 임하였다. 그들 중 10명을 임의로 뽑아서 방법 1에 의해 교육을 받게 하고 나머지 10명은 방법 2에 의해 교육을 받게 하였다. 교육을 끝내고 난 후 모든 노동자들을 대상으로 숙련작업 수행에 필요한 시간을 측정하여 다음과 같은 자료를 얻었을 때, 방법 1의 교육을 받은 후의 평균 작업 시간이 방법 2보다 적다고 할 수 있는가? 유의수준 0.05에서 검정하라.

방법 1 15 20 11 23 16 21 18 16 27 24
방법 2 23 31 13 19 23 17 28 16 25 28

※ 예제에서 두 집단은 정규분포를 따른다고 가정한다. 즉, 방법 1의 교육을 받은 후의 작업 시간 \(X\sim N(\mu_1, \sigma^2_1)\), 방법 2의 교육을 받은 후의 작업 시간 \(Y\sim N(\mu_2, \sigma^2_2)\)라고 가정한다.

x <- c(15, 20, 11, 23, 16, 21, 18, 16, 27, 24)
y <- c(23, 31, 13, 19, 23, 17, 28, 16, 25, 28)


var.test(x, y, ratio = 1, alternative = "two.sided")

    F test to compare two variances

data:  x and y
F = 0.66507, num df = 9, denom df = 9, p-value = 0.5531
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.1651952 2.6775873
sample estimates:
ratio of variances 
         0.6650748 

Result! 먼저, 두 모집단의 모분산이 동일한지 검정하기 위해 함수 var.test()를 수행하였다. 귀무가설은 \(H_0 : \sigma^2_1/\sigma^2_2=1\), 대립가설은 \(H_1 : \sigma^2_1/\sigma^2_2\ne 1\)일 때, 귀무가설 \(H_0\)가 참이라는 가정 하에서 검정통계량 \(F=S^2_1/S^2_2\)\(F(9, 9)\)를 따른다. 관측된 데이터에 의해 계산된 검정통계량 값은 \(f=0.66507\)이며, 유의확률 \(p\)-값은 0.5531이다. 이에 근거하여, 유의수준 5%에서 \(p\)-값이 0.05보다 크기 때문에 귀무가설 \(H_0\)을 기각할 수 없다. 즉, 주어진 두 집단의 데이터의 모분산은 동일하다.

# t.test
t.test(x, y, var.equal = TRUE, mu = 0, alternative = "less")

    Two Sample t-test

data:  x and y
t = -1.3275, df = 18, p-value = 0.1005
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
      -Inf 0.9801764
sample estimates:
mean of x mean of y 
     19.1      22.3 

Caution! 예제에서 귀무가설은 \(H_0 : \mu_1-\mu_2 \ge 0\), 대립가설은 \(H_1 : \mu_1-\mu_2 < 0\)이다. \(H_0\)이 참이라는 가정 하에서 검정통계량은 \(T=\frac{(\bar{X}-\bar{Y}) }{5.390321\sqrt{\frac{1}{10}+\frac{1}{10}}}\sim t(18)\)이다.
Result! 관측된 데이터에 의해 계산된 각 집단의 표본평균은 19.1, 22.3이기 때문에 검정통계량 값은 \(t=\frac{19.1-22.3}{5.390321\sqrt{\frac{1}{10}+\frac{1}{10}}}=-1.3275\)이며, 유의확률 \(p\)-값은 0.1005이다. 이에 근거하여, 유의수준 5%에서 \(p\)-값이 0.05보다 크기 때문에 귀무가설 \(H_0 : \mu_1-\mu_2 \ge 0\)을 기각할 수 없다. 즉, 방법 1의 교육을 받은 후의 평균 작업 시간이 방법 2보다 적다고 할 수 없다.


예제 3

표준 비료에 특별한 화학 첨가물을 사용하는 것이 식물의 성장을 촉진시키는가를 알아보기 위해서 실험을 하고자 한다. 실험을 할 10곳의 위치가 선정되었다. 각 위치에서 근접한 두 그루의 식물을 대상으로 실험을 수행하는데, 한 그루에는 표준 비료만을 사용하고 다른 한 그루에는 표준비료에 특별한 화학 첨가물을 사용해서 실험을 하고자 한다. 4주 후에 그동안 식물이 자란 길이(cm)를 재어보았다. 아래의 자료는 표준 비료에 특별한 화학 첨가물을 사용하는 것이 식물의 성장을 촉진시킨다는 주장을 뒷받침하는가? 유의수준 0.05에서 검정하라.

첨가하지 않은 경우 20 31 16 22 19 32 25 18 20 19
첨가한 경우 23 34 15 21 22 31 29 20 24 23

※ 예제에서 두 집단은 정규분포를 따른다고 가정한다. 즉, 특별한 화학 첨가물을 사용하지 않은 경우의 식물 성장 \(X\sim N(\mu_1, \sigma^2_1)\), 특별한 화학 첨가물을 사용한 경우의 식물 성장 \(Y\sim N(\mu_2, \sigma^2_2)\)라고 가정한다.

x <- c(20, 31, 16, 22, 19, 32, 25, 18, 20, 19)
y <- c(23, 34, 15, 21, 22, 31, 29, 20, 24, 23)

var.test(x, y, ratio = 1, alternative = "two.sided")

    F test to compare two variances

data:  x and y
F = 0.93697, num df = 9, denom df = 9, p-value = 0.9243
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.2327313 3.7722550
sample estimates:
ratio of variances 
         0.9369748 

Result! 먼저, 두 모집단의 모분산이 동일한지 검정하기 위해 함수 var.test()를 수행하였다. 귀무가설은 \(H_0 : \sigma^2_1/\sigma^2_2=1\), 대립가설은 \(H_1 : \sigma^2_1/\sigma^2_2\ne 1\)일 때, 귀무가설 \(H_0\)가 참이라는 가정 하에서 검정통계량 \(F=S^2_1/S^2_2\)\(F(9, 9)\)를 따른다. 관측된 데이터에 의해 계산된 검정통계량 값은 \(f=0.93697\)이며, 유의확률 \(p\)-값은 0.9243이다. 이에 근거하여, 유의수준 5%에서 \(p\)-값이 0.05보다 크기 때문에 귀무가설 \(H_0\)을 기각할 수 없다. 즉, 주어진 두 집단의 데이터의 모분산은 동일하다.

# t.test
t.test(x, y, var.equal = TRUE, mu = 0, alternative = "less")

    Two Sample t-test

data:  x and y
t = -0.8067, df = 18, p-value = 0.2152
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
     -Inf 2.299172
sample estimates:
mean of x mean of y 
     22.2      24.2 

Caution! 예제에서 귀무가설은 \(H_0 : \mu_1-\mu_2 \ge 0\), 대립가설은 \(H_1 : \mu_1-\mu_2 < 0\)이다. \(H_0\)이 참이라는 가정 하에서 검정통계량은 \(T=\frac{(\bar{X}-\bar{Y}) }{5.543765\sqrt{\frac{1}{10}+\frac{1}{10}}}\sim t(18)\)이다.
Result! 관측된 데이터에 의해 계산된 각 집단의 표본평균은 22.2, 24.2이기 때문에 검정통계량 값은 \(t=\frac{22.2-24.2}{5.543765\sqrt{\frac{1}{10}+\frac{1}{10}}}=-0.8067\)이며, 유의확률 \(p\)-값은 0.2152이다. 이에 근거하여, 유의수준 5%에서 \(p\)-값이 0.05보다 크기 때문에 귀무가설 \(H_0 : \mu_1-\mu_2 \ge 0\)을 기각할 수 없다. 즉, 표준 비료에 특별한 화학 첨가물을 사용하는 것이 식물의 성장을 촉진시킨다고 할 수 없다.


예제 4

어느 택배회사는 한 물류센터에서 다른 물류센터까지 상품을 운송하는데 두 개의 노선 중 하나를 선택하려고 한다. 주요 관심사는 운송시간이다. 이때 12명의 기사 중에서 임의로 6명을 뽑아서 노선 A를, 나머지 6명은 노선 B를 운행하도록 하여 아래의 자료를 얻었을 때 두 노선 간의 운송시간에 차이가 있는가? 유의수준 0.05에서 검정하라.

노선 A 1.8 2.4 3.0 2.1 3.2 1.5
노선 B 2.2 2.9 3.4 2.5 3.5 1.6

※ 예제에서 두 집단은 정규분포를 따른다고 가정한다. 즉, 노선 A의 운송시간 \(X\sim N(\mu_1, \sigma^2_1)\), 노선 B의 운송시간 \(Y\sim N(\mu_2, \sigma^2_2)\)라고 가정한다.

x <- c(1.8, 2.4, 3.0, 2.1, 3.2, 1.5)
y <- c(2.2, 2.9, 3.4, 2.5, 3.5, 1.6)

var.test(x, y, ratio = 1, alternative = "two.sided")

    F test to compare two variances

data:  x and y
F = 0.83698, num df = 5, denom df = 5, p-value = 0.8499
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.117119 5.981356
sample estimates:
ratio of variances 
         0.8369769 

Result! 먼저, 두 모집단의 모분산이 동일한지 검정하기 위해 함수 var.test()를 수행하였다. 귀무가설은 \(H_0 : \sigma^2_1/\sigma^2_2=1\), 대립가설은 \(H_1 : \sigma^2_1/\sigma^2_2\ne 1\)일 때, 귀무가설 \(H_0\)가 참이라는 가정 하에서 검정통계량 \(F=S^2_1/S^2_2\)\(F(5, 5)\)를 따른다. 관측된 데이터에 의해 계산된 검정통계량 값은 \(f=0.83698\)이며, 유의확률 \(p\)-값은 0.8499이다. 이에 근거하여, 유의수준 5%에서 \(p\)-값이 0.05보다 크기 때문에 귀무가설 \(H_0\)을 기각할 수 없다. 즉, 주어진 두 집단의 데이터의 모분산은 동일하다.

# t.test
t.test(x, y, var.equal = TRUE, mu = 0, alternative = "two.sided")

    Two Sample t-test

data:  x and y
t = -0.86588, df = 10, p-value = 0.4069
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -1.2506447  0.5506447
sample estimates:
mean of x mean of y 
 2.333333  2.683333 

Caution! 예제에서 귀무가설은 \(H_0 : \mu_1-\mu_2 = 0\), 대립가설은 \(H_1 : \mu_1-\mu_2 \ne 0\)이다. \(H_0\)이 참이라는 가정 하에서 검정통계량은 \(T=\frac{(\bar{X}-\bar{Y}) }{0.700119\sqrt{\frac{1}{6}+\frac{1}{6}}}\sim t(10)\)이다.
Result! 관측된 데이터에 의해 계산된 각 집단의 표본평균은 2.333, 2.683이기 때문에 검정통계량 값은 \(t=\frac{2.333-2.683}{0.700119\sqrt{\frac{1}{6}+\frac{1}{6}}}=-0.86588\)이며, 유의확률 \(p\)-값은 0.4069이다. 이에 근거하여, 유의수준 5%에서 \(p\)-값이 0.05보다 크기 때문에 귀무가설 \(H_0 : \mu_1-\mu_2 = 0\)을 기각할 수 없다. 즉, 두 노선 간의 운송시간에 차이가 없다.


3. 대응 표본에 대한 모평균 검정


3-1. 예제

t.test(x, y, paired = TRUE, mu = 0, alternative = c("two.sided", "less", "greater"), conf.level,...)

예제 1

어떤 약의 부작용으로 혈압강하의 효과가 있는지 알아보기 위해서 15명의 환자를 대상으로 약의 복용 전후의 이완기 혈압을 측정하였더니 그 결과가 다음과 같다. 해당 자료로부터 약이 혈압을 내린다는 주장을 할 수 있겠는가? 유의수준 0.05에서 검정하라.

환자 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
70 80 72 76 76 76 72 78 82 64 74 92 74 68 84
68 72 62 70 58 66 68 52 64 72 74 60 74 72 74

※ 예제에서 두 집단은 정규분포를 따른다고 가정한다. 즉, 약의 복용 전 이완기 혈압 \(X\sim N(\mu_1, \sigma^2_1)\), 약의 복용 후 이완기 혈압 \(Y\sim N(\mu_2, \sigma^2_2)\)라고 가정한다.

x <- c(70, 80, 72, 76 ,76 ,76 ,72, 78, 82, 64, 74, 92, 74, 68, 84)
y <- c(68, 72, 62, 70, 58, 66, 68, 52, 64, 72, 74, 60, 74, 72, 74)

t.test(x, y, paired = TRUE, mu = 0, alternative = "greater")

    Paired t-test

data:  x and y
t = 3.1054, df = 14, p-value = 0.003875
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
 3.808783      Inf
sample estimates:
mean of the differences 
                    8.8 

Caution! 예제에서 귀무가설은 \(H_0 : \mu_1-\mu_2 = \delta \le 0\), 대립가설은 \(H_1 : \mu_1-\mu_2=\delta > 0\)이다. \(H_0\)이 참이라는 가정 하에서 검정통계량은 \(T=\frac{\bar{D} }{10.9753\sqrt{\frac{1}{15}}} \sim t(14)\)이다.
Result! 관측된 데이터에 의해 계산된 두 반응값의 차 \(D\)의 표본평균은 8.8이기 때문에 검정통계량 값은 \(t=\frac{8.8}{10.9753\sqrt{\frac{1}{15}}}=3.1054\)이며, 유의확률 \(p\)-값은 0.003875이다. 이에 근거하여, 유의수준 5%에서 \(p\)-값이 0.05보다 작기 때문에 귀무가설 \(H_0 : \mu_1-\mu_2=\delta \le 0\)을 기각할 수 있다. 즉, 약이 혈압을 내린다고 주장할 수 있다.


예제 2

어떤 산업안전 프로그램이 공장에서 일어나는 사건으로 인한 작업시간의 손실을 줄이는 데 효과적이라고 주장하고 있다. 다음의 자료는 6곳의 공장에서 산업 안전 프로그램 실시 전과 후의 사고로 인한 주당 작업시간의 손실을 기록한 것이다. 해당 자료로부터 그 주장이 맞다고 결론을 내릴 수 있겠는가? 유의수준 0.05에서 검정하라.

공장 1 2 3 4 5 6
실시 전 12 29 16 37 28 15
실시 후 10 28 17 35 25 16

※ 예제에서 두 집단은 정규분포를 따른다고 가정한다. 즉, 산업 안전 프로그램 실시 전 사고로 인한 주당 작업시간의 손실 \(X\sim N(\mu_1, \sigma^2_1)\), 산업 안전 프로그램 실시 후 사고로 인한 주당 작업시간의 손실 \(Y\sim N(\mu_2, \sigma^2_2)\)라고 가정한다.

x <- c(12, 29, 16, 37, 28, 15)
y <- c(10, 28, 17, 35, 25, 16)

t.test(x, y, paired = TRUE, mu = 0, alternative = "greater")

    Paired t-test

data:  x and y
t = 1.4639, df = 5, p-value = 0.1016
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
 -0.3765401        Inf
sample estimates:
mean of the differences 
                      1 

Caution! 예제에서 귀무가설은 \(H_0 : \mu_1-\mu_2 = \delta \le 0\), 대립가설은 \(H_1 : \mu_1-\mu_2=\delta > 0\)이다. \(H_0\)이 참이라는 가정 하에서 검정통계량은 \(T=\frac{\bar{D} }{1.67332\sqrt{\frac{1}{6}}} \sim t(5)\)이다.
Result! 관측된 데이터에 의해 계산된 두 반응값의 차 \(D\)의 표본평균은 1이기 때문에 검정통계량 값은 \(t=\frac{1}{1.67332\sqrt{\frac{1}{6}}}=1.4639\)이며, 유의확률 \(p\)-값은 0.1016이다. 이에 근거하여, 유의수준 5%에서 \(p\)-값이 0.05보다 크기 때문에 귀무가설 \(H_0 : \mu_1-\mu_2=\delta \le 0\)을 기각할 수 없다. 즉, 산업 안전 프로그램이 공장에서 일어나는 사건으로 인한 작업시간의 손실을 줄이는 데 효과적이라고 주장할 수 없다.


예제 3

어떤 영양학자는 사이크로트롭스(PC)라고 불리는 일종의 박테리아를 넣은 탈지유와 PC를 넣지 않은 탈지유로 만들어진 요구르트 질에 차이가 있는지를 연구하고자 한다. 탈지유의 표본을 7곳의 우유 농장에서 채취한 후, 각각 절반의 우유에는 PC를 주입하고 나머지 절반의 우유에는 PC를 주입하지 않았다. 이렇게 얻어진 우유로 요구르트를 만들어 각각 응고된 정도를 측정하여 기록하였더니 결과가 다음과 같았다. 수치가 큰 것이 응고 정도가 강함을 나타낸다고 하자. 해당 자료로부터 PC가 주입된 우유로 만든 요구르트의 응고 정도가 더 강하다고 결론을 내릴 수 있겠는가? 유의수준 0.05에서 검정하라.

농장 A B C D E F G
PC 첨가 안함 61 69 64 76 52 38 68
PC 첨가 68 75 62 86 52 46 72

※ 예제에서 두 집단은 정규분포를 따른다고 가정한다. 즉, PC가 주입되지 않은 우유로 만든 요구르트 응고 정도 \(X\sim N(\mu_1, \sigma^2_1)\), PC가 주입된 우유로 만든 요구르트 응고 정도 \(Y\sim N(\mu_2, \sigma^2_2)\)라고 가정한다.

x <- c(61, 69, 64, 76, 52, 38, 68)
y <- c(68, 75, 62, 86, 52, 46, 72)

t.test(x, y, paired = TRUE, mu = 0, alternative = "less")

    Paired t-test

data:  x and y
t = -2.8687, df = 6, p-value = 0.01424
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
      -Inf -1.520912
sample estimates:
mean of the differences 
              -4.714286 

Caution! 예제에서 귀무가설은 \(H_0 : \mu_1-\mu_2 = \delta \ge 0\), 대립가설은 \(H_1 : \mu_1-\mu_2=\delta < 0\)이다. \(H_0\)이 참이라는 가정 하에서 검정통계량은 \(T=\frac{\bar{D} }{4.347961\sqrt{\frac{1}{7}}} \sim t(6)\)이다.
Result! 관측된 데이터에 의해 계산된 두 반응값의 차 \(D\)의 표본평균은 -4.714286이기 때문에 검정통계량 값은 \(t=\frac{-4.714286}{4.347961\sqrt{\frac{1}{7}}}=-2.8687\)이며, 유의확률 \(p\)-값은 0.01424이다. 이에 근거하여, 유의수준 5%에서 \(p\)-값이 0.05보다 작기 때문에 귀무가설 \(H_0 : \mu_1-\mu_2=\delta \ge 0\)을 기각할 수 있다. 즉, PC가 주입된 우유로 만든 요구르트의 응고 정도가 더 강하다고 결론을 내릴 수 있다.


예제 4

통조림 공장에서 통조림을 제조하기 전에 많은 양의 끓는 물로 채소를 세척하고 있다. 그런데 새로 개발된 방법인 증기를 이용한 세척방법(SBP)을 사용하면 채소에 들어 있는 비타민과 미네랄이 기존의 방법보다 적게 손실된다고 한다. 10곳의 농장에서 얻은 10다발의 콩을 가지고 SBP 방법과 기존의 방법을 비교하고자 한다. 각 다발의 콩 중에서 반은 기존의 방법으로, 나머지 반은 SBP 방법으로 처리한 후 통조림 된 콩에서 450g 당 비타민의 양을 측정하였다. 해당 자료로부터 기존의 방법보다 SBP 방법이 비타민 손실을 더 적게 한다고 할 수 있겠는가? 유의수준 0.05에서 검정하라.

공장 1 2 3 4 5 6 7 8 9 10
기존의 방법 33 40 55 41 62 54 40 35 59 56
SBP 방법 35 48 65 33 61 54 49 37 58 65

※ 예제에서 두 집단은 정규분포를 따른다고 가정한다. 즉, 기존의 방법으로 처리한 후 통조림 된 콩에서 450g 당 비타민의 양 \(X\sim N(\mu_1, \sigma^2_1)\), SBP 방법으로 처리한 후 통조림 된 콩에서 450g 당 비타민의 양 \(Y\sim N(\mu_2, \sigma^2_2)\)라고 가정한다.

x <- c(33, 40, 55, 41, 62, 54, 40, 35, 59, 56)
y <- c(35, 48, 65, 33, 61, 54, 49, 37, 58, 65)

t.test(x, y, paired = TRUE, mu = 0, alternative = "less")

    Paired t-test

data:  x and y
t = -1.6164, df = 9, p-value = 0.07023
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
      -Inf 0.4021136
sample estimates:
mean of the differences 
                     -3 

Caution! 예제에서 귀무가설은 \(H_0 : \mu_1-\mu_2 = \delta \ge 0\), 대립가설은 \(H_1 : \mu_1-\mu_2=\delta < 0\)이다. \(H_0\)이 참이라는 가정 하에서 검정통계량은 \(T=\frac{\bar{D} }{5.868939\sqrt{\frac{1}{10}}} \sim t(9)\)이다.
Result! 관측된 데이터에 의해 계산된 두 반응값의 차 \(D\)의 표본평균은 -3이기 때문에 검정통계량 값은 \(t=\frac{-3}{5.868939\sqrt{\frac{1}{10}}}=-1.6164\)이며, 유의확률 \(p\)-값은 0.07023이다. 이에 근거하여, 유의수준 5%에서 \(p\)-값이 0.05보다 크기 때문에 귀무가설 \(H_0 : \mu_1-\mu_2=\delta \ge 0\)을 기각할 수 없다. 즉, SBP 방법이 비타민 손실을 더 적게 한다고 할 수 없다.

Reuse

Text and figures are licensed under Creative Commons Attribution CC BY 4.0. The figures that have been reused from other sources don't fall under this license and can be recognized by a note in their caption: "Figure from ...".