연속형 확률분포 Ⅱ
균등 분포(Uniform probability distribution)
- 확률변수 X : 구간 (a,b)에서 균등한 가능성으로 발생한 값.
- 분포의 특징
- 확률함수 \(f(x) = \left\{\begin{matrix}\frac{1} {b-a}, a < x < b \\ 0, 나머지 \\ \end{matrix}\right.\)
- 기대값 $E(X) = \frac{a+b}{2}$
- 분산 $Var(X) = \frac{ (b-a)^2 }{12}$
-
분포관련 R 함수
내용 형식 밀도함수 dunif(x, min, max) 누적분포함수 punif(q, min, max, lower.tail=TRUE/FALSE) 분위수함수 qunif(p, min, max, lower.tail=TRUE/FALSE) 난수발생 runif(n, min, max) -
분포관련 R 표현
# PDF > min = 0; max=10; x=seq(min,max,length.out=100) #연속형이기 때문에 갯수를 많이 쪼깸 > # pdf > y = dunif(x,min,max) > plot(x, y,xlab="x", ylab="f(x)", type='l', lwd = 3, main="pdf", xlim=c(min-2,max+2) ,ylim=c(0,1/(max-min)) ) > lines(c(min-2,min),c(0,0),lwd=3) > lines(c(max,max+2),c(0,0),lwd=3) > # cdf = pdf 의 합 (PDF->CDF 일반화) > cy = punif(x,min,max) > plot(x, cy,xlab="x", ylab="f(x)", type='l', lwd = 3, main="cdf", xlim=c(min-2,max+2) ,ylim=c(0,1) ) > lines(c(min-2,min),c(0,0),lwd=3) > lines(c(max,max+2),c(1,1),lwd=3)
지수 분포(Exponential probability distribution)
-
확률변수 X : 포아송 과정(ex: 수명, 대기시간 등)에서 하나의 사건이 발생할 때까지의 대기시간
- 분포의 특징
- 확률밀도함수(pdf) \(f(x) = \left\{\begin{matrix}\ \lambda e^{-\lambda x}, x \ge 0 \\ 0, x < 0 \\ \end{matrix}\right.\)
-
누적분포함수(cdf) \(F(x) = P(X\le x) = \left\{\begin{matrix} 1-e^{(-\lambda x)}, x \ge 0 \\ 0, x < 0 \\ \end{matrix}\right.\)
- 기대값 $E(X) = \frac {1} { \lambda }$
- 분산 $Var(X) = \frac {1} { \lambda^2 }$
-
지수분포에서 건망증
- 어떤 장치가 고장나지 않았다는 조건하에서 나머지 수명은,그 시간 이전의 그 장치의 수명에 대한 확률밀도함수와 같아짐
- 즉, 그 시간 경과한 후에 마치 0 시점에서 새로 시작하는 것처럼 행동함
-
분포관련 R 함수
내용 형식 비고 밀도함수 dexp(x, rate) rate=1/λ 누적분포함수 pexp(q, rate, lower.tail=TRUE/FALSE) tail=TRUE, default 이고 left side 즉 P(X≤x) 의미 분위수함수 qexp(p, rate, lower.tail=TRUE/FALSE) 난수발생 rexp(n, rate) -
분포관련 R 표현
# Ex : 20분당 통화가 1번 걸려오는 경우 , 람다 = 20 > lambda = 20; x=seq(0,30,length.out=100) #연속형이기 때문에 갯수를 많이 쪼깸 > # pdf > y = dexp(x,1/lambda) > plot(x, y,xlab="x = Call간격", ylab="f(x)", type='l', lwd = 2, main="pdf" ) # 20보다 해당영역 표시, polygon(c(x[20: length(x) ], x[ length(x) :20]),c(rep(-2,length(x[20: length(x) ])), y[ length(x) :20]),col=adjustcolor( rgb(0, 0, 1.0), alpha=0.5 ),lwd=2 ) > # cdf = pdf 의 합 (PDF->CDF 일반화) > cy = pexp(x,1/lambda) > plot(x, cy,xlab="x", ylab="F(x)", type='l', lwd = 3, main="cdf" )
- 지수분포 문제풀이
- 문제가 “이상” 일 확률과 “이하” 확률 구분에 주의 하며, 람다 = 1/주어진 문제의 평균
- Ex1) 어느 회사 TV의 평균수명은 5년인 경우 이 TV 수명이 6년 이상 지속될 확률은 ?
sol1) 람다=1/5, P(X≥6) = 1 - P(X<6) = e^(-1/5*6) = 0.3012
sol2) R 풀이 P(X≥6) = 1- pexp(6, 1/5) - Ex2) 어느 회사 TV의 평균수명은 3년이고, 보증기간은 1년이라고 한다. 이 TV가 이년이내 고장나서 보상받을 확률을 구하시오
sol1) 람다=1/3, P(X≤1) = 1-e^(-1/3*1) = 0.2834687
sol2) R 풀이 pexp(1, 1/3) - Ex3) 병원에서 진료대기시간이 평균 8분인 경우 병원에 가서 대기할 시간이 4분~11분 사이 확률은 ?
sol1) 람다=1/8, P(4≤X≤11) = P(X≤11) - P(X<4) = 1-e^(-11/8) - ( 1-e^(-4/8)) = 0.3536911
sol2) R 풀이 pexp(11, 1/8) - pexp(4, 1/8) = 0.3536911
감마 분포(Gamma probability distribution)
- 확률변수 푸아송 과정에서 개의 n개의 사건이 발생할 때까지의 대기시간
-
분포의 특징
- 확률밀도함수(pdf)
\(f(x) = \left\{\begin{matrix}\ \frac{\lambda^\alpha}{\Gamma(\alpha)} e^{-\lambda x} x^{\alpha - 1} , x \ge 0 \\ 0, x < 0 \\ \end{matrix}\right.\)
-
편의상 $\beta = \frac{1}{\lambda}$(첫번째 사건이 발생할 때까지 걸린 시간) 로하면,
\[f(x) = \left\{\begin{matrix}\ \frac{1}{\Gamma(\alpha) \beta ^\alpha} e^{-\frac{x}{\beta}} x^{\alpha - 1} , x \ge 0 \\ 0, x < 0 \\ \end{matrix}\right.\] - 설명하면 $\alpha$번째 사건이 일어날때 까지 걸리는 시간에 대한 연속확률 분포
- $X-\Gamma(\alpha,\beta)$ 라 하고, $\alpha$는 형태모수, $\beta$는 척도모수 라 한다
- 여기서 $\Gamma(\alpha)$는 감마함수로서 pdf의 면적이 1되도록 하는데 필요
-
$\alpha =1$인 경우는 지수분포가 됨 $\epsilon(\lambda) = \Gamma(1,1/\lambda)$
-
누적분포함수(cdf) \(F(x) = P(X\le x) = \left\{\begin{matrix} 1-\sum_{y=0}^{\alpha-1} \frac{(x/\beta)^ye^{-x/\beta}}{y!} , x \ge 0 \\ 0, x < 0 \\ \end{matrix}\right.\)
- 기대값 $E(X) = \frac{\alpha}{\lambda} = \alpha \beta$
- 분산 $Var(X) = \frac{\alpha}{\lambda^2} = \alpha \beta^2$
-
분포관련 R 함수
내용 형식 비고 밀도함수 dgamma(x, shape, rate = 1, scale = 1/rate) shape: α 형태모수 , rate:scale의 역수로, 둘중 반드시 하나만 지정해야함 scale: β 척도모수 누적분포함수 pgamma(q, shape, rate = 1, scale = 1/rate) 분위수함수 qgamma(p, shape, rate = 1, scale = 1/rate) 난수발생 rgamma(n, shape, rate = 1, scale = 1/rate) -
분포관련 R 표현
# Ex > x <- seq(0, 20, length.out = 101); scale = 0.5; > # shape 별로 pdf 그리기 > plot(x, dgamma(x, 4, scale = scale), type = 'l', main="pdf" ) > lines(x, dgamma(x, 8, scale = scale), col = 'red', lty = 2) > lines(x, dgamma(x, 12, scale = scale), col = 'purple', lty = 2) > lines(x, dgamma(x, 16, scale = scale), col = 'blue', lty = 2) > lines(x, dgamma(x, 20, scale = scale), col = 'grey', lty = 2) > legend('top', bty = 'n', ncol = 3, lty = c(1, 2, 2, 2, 2), col = c('black', 'red', 'purple', 'blue', 'grey'), legend = c('shape = 4', 'shape = 8', 'shape = 12', 'shape = 16', 'shape = 20')) > # cdf > plot(x, pgamma(x, 4, scale = scale), type = 'l', main="cdf") > lines(x, pgamma(x, 8, scale = scale), col = 'red', lty = 2) > lines(x, pgamma(x, 12, scale = scale), col = 'purple', lty = 2) > lines(x, pgamma(x, 16, scale = scale), col = 'blue', lty = 2) > lines(x, pgamma(x, 20, scale = scale), col = 'grey', lty = 2) > legend('top', bty = 'n', ncol = 3, lty = c(1, 2, 2, 2, 2), col = c('black', 'red', 'purple', 'blue', 'grey'), legend = c('shape = 4', 'shape = 8', 'shape = 12', 'shape = 16', 'shape = 20'))
카이제곱 분포(Chi-Squared probability distribution)
- $\gamma$개의 서로 독립적인 표준정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포이다. 이 때 $\gamma$을 자유도라고 하며, 카이제곱 분포의 매개변수가 된다.
- 감마 분포의 특수한 형태로 감마 분포에서 $\alpha=\gamma/2, \beta=2, 단 \gamma \ge 2$ 인경우
-
$X \sim \chi^2(\gamma)$ X는 자유도 $\gamma$인 카이제곱 분포를 따른다
-
분포의 특징
-
확률밀도함수(pdf)
\[f(x) = \left\{\begin{matrix}\ \frac{1}{\Gamma(\gamma/2) 2 ^{\gamma/2}} e^{-x/2} x^{\gamma/2 - 1} , x \ge 0 \\ 0, x < 0 \\ \end{matrix}\right.\] - 기대값 $E(X) = \gamma$
-
분산 $Var(X) = 2\gamma$
-
분포관련 R 함수
내용 형식 비고 밀도함수 dchisq(df) df: 자유도 γ 누적분포함수 pchisq(df, lower.tail=TRUE/FALSE) 분위수함수 qchisq(df, lower.tail=TRUE/FALSE 난수발생 rchisq(n, df)
-
-
분포관련 R 표현
# Ex > x <- seq(0, 20, length.out = 101); > # shape 별로 pdf 그리기 > plot(x, dchisq(x, 1), type = 'l', main="pdf" ) > lines(x, dchisq(x, 2), col = 'red', lty = 2) > lines(x, dchisq(x, 4), col = 'purple', lty = 2) > lines(x, dchisq(x, 8), col = 'blue', lty = 2) > lines(x, dchisq(x, 16), col = 'grey', lty = 2) > legend('top', bty = 'n', ncol = 3, lty = c(1, 2, 2, 2, 2), col = c('black', 'red', 'purple', 'blue', 'grey'), legend = c('df = 1', 'df = 2', 'df = 4', 'df = 8', 'df = 16')) > # cdf > plot(x, pchisq(x, 1), type = 'l', main="cdf" ) > lines(x, pchisq(x, 2), col = 'red', lty = 2) > lines(x, pchisq(x, 4), col = 'purple', lty = 2) > lines(x, pchisq(x, 8), col = 'blue', lty = 2) > lines(x, pchisq(x, 16), col = 'grey', lty = 2) > legend('top', bty = 'n', ncol = 3, lty = c(1, 2, 2, 2, 2), col = c('black', 'red', 'purple', 'blue', 'grey'), legend = c('df = 1', 'df = 2', 'df = 4', 'df = 8', 'df = 16'))
댓글남기기