이산형 확률분포

2022-03-15 7 분 소요

베르누이 분포

베르누이 시행
다음과 같은 시행(실험)을 베르누이 시행(Bernoulli trial)이라고 한다
- 시행 결과가 두 가지 (성공, 실패) 중 하나인 경우
- 각 시행에서 성공의 확률은 (항상 일정한) p 이다.
- 각 시행은 서로 독립이다. (예제)
  - 동전 앞면성공, 뒷면 실패 $f(x) = \left\{\begin{matrix} 1/2 , x= 0 \\ 1/2 , x= 1 \\ \end{matrix}\right.$
  - 빨간공7,검정공3개에서 검정공이면 성공/빨강이면 실패 등 $f(x) = \left\{\begin{matrix} 3/10 , x= 1 \\ 7/10 , x= 0 \\ \end{matrix}\right.$
분포의 특징
- 확률함수 $f(x) = \left\{\begin{matrix}1-p, x= 0 \\ p, x= 1 \\ 0, 나머지 \\ \end{matrix}\right.$
- 기대값 $E(X) = 0 \times (1-p) + 1 \times p = p$
- 분산 $Var(X) = (0-p)^2\times(1-p)+(1-p)^2\times p=p(1-p)$

분포관련 R 표현

  # 예제1) 빨간공 7개, 검정공3개에서 검정공이면 성공인 확률분포
  > x = 0:1; p=1-3/10
  > cy = rep(0, length(x) )  # 초기화
  > 
  > # pdf
  > py = c(p, 1-p)
  > plot(x, py,xlab="x", ylab="p(x)", type='h', lwd = 3, main="pdf", xaxt="n" )
  > axis(side=1, at= x )

  > # cdf = pdf 의 합 (PDF->CDF 일반화)
  > for( i in 1:length(x) ) { 
  +     if ( i == 1 ) {
  +         cy[i] = py[i]
  +     } else {
  +         for( j in 1:i ) {
  +             cy[i] =cy[i] + py[j]
  +         }
  +     }  
  + }
  > plot(x,cy,xlab="X", ylab="F(X)=P(X≤x)", lwd = 3, pch=16, main="cdf")
  > for(i in x) { lines(c( x[i+1],x[i+2]), c(cy[i+1],cy[i+1]) )  }

이항분포

확률변수 X의 정의
- 독립적인 베르누이 실험을 여러 번 (𝒏 번) 시도하여 성공 사건이 발생한 횟수 $(𝒙 ≤ n )$
- 이항분포는 여러번(n번) 베르누이 시행한것과 동일하다
- $X \sim B(n,p)$로 표기
분포의 특징
- 확률함수 $f(x) = \left\{\begin{matrix} \binom{n}{x}p^x(1-p)^{(n-x)}, x= 0,1,2...,n \\ 0, 나머지 \end{matrix}\right.$
- 기대값 $E(X) = E(X_1+X_2+…+X_n) = np$
- 분산 $Var(X) = Var(X_1)+Var(X_2)+…+Var(X_n)=np(1-p)$

분포관련 R 함수

내용	형식	비고
밀도함수	dbinom(x,size,prob)	P(X=x) 인경우 x , size=n, prob=p
누적분포함수	pbinom(q,size,prob,lower.tail=TRUE)	P(X≤q)일때 q
분위수함수	qbinom(p,size,prob,lower.tail=TRUE)	P(X≤x) = p 일때 p를 의미
난수발생	rbinom(n,size,prob)	난수 발생 갯수

※ size : 베르누이 시행 횟수, prob는 성공확률 , lower.tail logical; if TRUE (default), probabilities are P(X ≤ x), otherwise, P(X > x)

R 예제

  # 예제1) 동전을 10번 던저 앞면이 나올 횟수의 확률분포(n=10, p=1/2) PDF,CDF
  > x =0:10; n = 10; p = 1/2
  # PDF
  > py = dbinom(x,n,p) 
  > plot(x, py,xlab="x", ylab="p(x)", type='h', lwd = 3, main="pdf") 
  # CDF
  > cy = pbinom(x,n,p) # CDF
  > plot(x,cy,xlab="X", ylab="F(X)=P(X≤x)", lwd = 3, pch=16, main="cdf")
  > for(i in x) { lines(c( x[i+1],x[i+2]), c(cy[i+1],cy[i+1]) )  }
    
  # 이항분포 모의 시물레이션 100회 
  > rd = rbinom(100,n,p)
  > hist( rd , prob=T , col="skyblue" )
  > lines(density(rd), col='black', lwd=2) #추정선

  # 예제2) 주사위를 6번던져 2가 나올 횟수의 확률분포 (n=6, p=1/6) PDF,CDF
  > x =0:6; n = 6; p = 1/6
  # PDF
  > py = dbinom(x,n,p) 
  > plot(x, py,xlab="x", ylab="p(x)", type='h', lwd = 3, main="pdf")
  # CDF
  > cy = pbinom(x,n,p) # CDF
  >  plot(x,cy,xlab="X", ylab="F(X)=P(X≤x)", lwd = 3, pch=16, main="cdf")
  > for(i in x) { lines(c( x[i+1],x[i+2]), c(cy[i+1],cy[i+1]) )  }

기하분포

동일한 베르누이 분포를 따르는 시행의 독립적인 반복에서 처음으로 성공하기까지의 시도횟수
확률변수 X의 정의
- 매번 같은 성공확률을 가진 독립적인 시행에서 성공할 때까지 시도한 횟수
- 예를 들면 동전을 던져 앞면이 나오는 경우를 성공이라고 할 때, 처음 앞면이 나올 때 까지 동전을 던진 횟수는 기하분포를 따르게 됨
분포의 특징
- 확률함수 $f(x) = (1-p)^{x-1} × p , x=0,1,2,...$
- 기대값 $E(X)= \frac{1} {p}$
- 분산 $Var(X) =\frac{1-p} {p^2}$

분포관련 R 함수

내용	형식
밀도함수	dgeom(x, prob)
누적분포함수	pgeom(q, prob, lower.tail = TRUE)
분위수함수	qgeom(p, prob, lower.tail = TRUE)
난수발생	rgeom(n, prob)

R 예제

# 동전을 던져서 앞면이 나오는 경우 성공 이라고 할때, 앞면이 나올때 까지 분포
# 단 앞면이 나올 확률은 동전이 찌그러져서 0.3 이라고 가정

> x=0:10; p = 0.3
> py = dgeom(x,p) # PDF
> plot(x, py,xlab="x", ylab="p(x)", type='h', lwd = 3, main="pdf")
    
> cy = pgeom(x,p) # CDF
> plot(x,cy,xlab="X", ylab="F(X)=P(X≤x)", lwd = 3, pch=16, main="cdf")
> for(i in x) { lines(c( x[i+1],x[i+2]), c(cy[i+1],cy[i+1]) )  }

음이항분포 - 기하분포(Geom)의 확장

확률변수 X의 정의
- 성공이 최초 목격되는 것을 확장하여, X=r번째 성공을 얻을 때까지 걸리는 시행횟수 (** 만약 r이 1이면 기하분포 )
분포의 특징
- 확률함수 $f(x) = \binom{x-1}{r-1}p^r(1-p)^{x-r}, x=r,r+1,...$
  - x=1일때 성공 p , x=2 일때 성공 (1-p)×p, x=3 일때 성공 (1-p)×(1-p)×p 와 같이 됨
- 기대값 $E(X)= r \frac{1} {p}$
- 분산 $Var(X) = r \frac{1-p} {p^2}$
- 실패의 횟수로 표현한 음이항 분호
  - 음이항 분포는 r번째 성공을 얻기 위해 걸렸던 실패횟수 Y=X-r의 함수로 나타내기도 함 $f(y) = \binom{y+r-1}{y}p^r(1-p)^{y}, y=0,1,2,...$
  - 기대값 $E(X)= r \frac{1} {p}$
  - 분산 $Var(X) = r \frac{1-p} {p^2}$

분포관련 R 함수

내용	형식	설명
밀도함수	dnbinom(x, size, prob)	x:실패횟수(n-k),size:성공횟수,prop:단일시행 성공확률
누적분포함수	pnbinom(q, size, prob, lower.tail = TRUE)	q:P(X<=x)에서 x값, x는 실패횟수,size:성공횟수,prop:단일시행 성공확률, lower.tail=T : P(X≤x)
분위수함수	qnbinom(p, size, prob, lower.tail = TRUE)	p:확률값,size:성공횟수,prop:단일시행 성공확률
난수발생	rnbinom(n, size, prob)	n:생성할 난수,size:성공횟수,prop:단일시행 성공확률

R 예제

# 야구선수가 안타칠 확률이 0.25인 경우, 7번째 타석에서 3번째 안타를 칠 확률은 ?
> successnum=3; failurenum=7-3; prob = 0.25
> dnbinom(failurenum, successnum, prob) # PDF
  [1] 0.07415771

\[\binom{x-1}{r-1}p^{r} (1-p)^{x-r} = \binom{7-1}{3-1}0.25^{3} 0.75^{7-3}=0.0742\]

# 퀴즈를 맞힐 확률이 30%라고 한다. 4번째 문제에서 2번째 정답을 맞힐 확률은?
> successnum=2; failurenum=4-2; prob = 0.3
> dnbinom(failurenum, successnum, prob) # PDF
  [1] 0.1323

\[\binom{x-1}{r-1}p^{r} (1-p)^{x-r} = \binom{4-1}{4-2}0.3^{2} 0.7^{4-2}=0.1323\]

# 뽑기 기계에서 뽑을 확률이 0.1일때, 3개의 인형을 뽑으려고 하는 경우 10번 게임을 할 확률은 ?
> successnum=3; failurenum=10-3; prob = 0.1
> dnbinom(failurenum, successnum, prob) # PDF
  [1] 0.01721869

# 뽑기 기계에서 뽑을 확률이 0.1일때, 3개의 인형을 뽑으려고 하는 경우 적어도 4번 게임을 할 확률은 ?
> successnum=3; failurenum=3-3; prob = 0.1
> 1 - pnbinom(failurenum, successnum, prob)
  [1] 0.999

Sol1) $\binom{x-1}{r-1}p^{r} (1-p)^{x-r} = \binom{10-1}{3-1}0.1^{3} 0.9^{10-3}=0.1721869$

Sol2) $1-P(X≤3) = 1 - P(X=3) = 1 - 0 0\sum_{x=3}^{x=3} \binom{x-1}{3-1}p^{3} (1-p)^{x-3} = 0.999$

# 야구선수가 안타칠 확률이 0.3인 경우, 7번째 타석에서 안타를 칠 확률분포

> successnum=0:7; failurenum=7:0; prob = 0.3
> py = dnbinom(failurenum, successnum, prob) # PDF
> plot(x, py,xlab="x", ylab="p(x)", type='h', lwd = 3, main="pdf")
    
> cy = pnbinom(failurenum, successnum, prob) # CDF
> plot(x,cy,xlab="X", ylab="F(X)=P(X≤x)", lwd = 3, pch=16, main="cdf")
> for(i in x) { lines(c( x[i+1],x[i+2]), c(cy[i+1],cy[i+1]) )  }

초기하 분포

확률변수 X의 정의
- 하얀 공 a개 검은 공 b개가 있는 주머니에서, n개의 공을 꺼냈을 경우, n개의 공에서 하얀 공의 수
- 초기하 분포는 하나를 꺼내고 나면, 뒤에 사건에 영향을 주는 독립시행이 아니기 때문에 이항과 베르누이 시행과 구분이 되어야 한다. (독립조건이 깨어짐)
- 복원추출이면 이항분포, 비복원 추출이면 초기하분포, N이 충분히 크면 이항분포에 근사함
분포의 특징
- 확률함수 $f(x) = \left\{\begin{matrix} \frac {\binom{a}{x}\binom{b}{n-x}} {\binom{a+b}{n}}, x= 0,1,2...,n (n \le a) \\ 0, 나머지\end{matrix}\right.$
- 기대값 $E(X) = n \times \frac{a}{a+b}$
- 분산 $Var(X) = \frac{a+b-n}{a+b-1} [ n \times \frac{a}{a+b} \times \frac{b}{a+b} ]$

분포관련 R 함수

내용	형식	인자
밀도함수	dhyper(x, m, n, k)	x:뽑고자 하는 수,m: 뽑고자 하는 원소의 수, n: 원하지 않는 원소의 수, k:뽑는 수
누적분포함수	phyper(q, m, n, k, lower.tail = TRUE)
분위수함수	qhyper(p, m, n, k, lower.tail = TRUE)
난수발생	rhyper(nn, m, n, k)

R 예제

# 10개의 하얀공, 5개의 검은공에서 3개의 공을 꺼냈을 때 하얀공이 2개 일 확률
> x = 2; m= 10; n=5; k=3
> dhyper(x,m,n,k)
[1] 0.4945055

\[f(X=x) = \frac {\binom{10}{2}\binom{5}{3-2}} {\binom{10+5}{3}} = 0.4945055\]

> 100개의 하얀공, 50개의 검은공 50개의 공을 꺼내는 경우 확률 분포
> # pdf
> x = 0:50; m =100;  n=50; k=50
> py = dhyper(x,m,n,k) # PDF
> plot(x, py,xlab="x", ylab="p(x)", type='h', lwd = 3, main="pdf")

> cy = phyper(x,m,n,k) # CDF
> plot(x,cy,xlab="X", ylab="F(X)=P(X≤x)", lwd = 3, pch=16, main="cdf")
> for(i in x) { lines(c( x[i+1],x[i+2]), c(cy[i+1],cy[i+1]) )  }

포아송 분포

확률변수 X의 정의
- 일정한 시간이나 공간에서 특정 사건이 발생 횟수 (이항과의 차이는 n이 거의 무한대)
- 예)
  - 일본에서 1년 동안 발생한 진도 4 이상의 지진 횟수
  - 1년 동안 발생한 위암 환자 수
  - 1시간 동안 콜센터에 걸려오는 전화 횟수
  - 1m 길이의 정사각형 나무 판자에서 발견된 흠집의 수
포아송 분포의 조건
- 짧은 구간에서 사건이 2번 이상 발생할 확률은 0에 가까움
- 정해진 구간에서 사건이 발생할 확률은 구간의 길이에 비례
- 서로 겹치지 않는 두 구간에서 발생하는 사건의 수는 서로 독립
분포의 특징
- 확률함수 (평균을 람다로 표기하고, 구간에서 발생하는 횟수를 의미) $f(x) = \left\{\begin{matrix}\ \frac {e^{-\lambda} \lambda^{x}}{x!} , x= 0,1,2... \\ 0, 나머지\end{matrix}\right.$
- 기대값 $E(X) =\lambda$
- 분산 $Var(X) = \lambda$

분포관련 R 함수

내용	형식
밀도함수	dpois(x, lambda)
누적분포함수	ppois(q=x, lambda, lower.tail = TRUE)
분위수함수	qpois(p=x, lambda, lower.tail = TRUE)
난수발생	rpois(x,lambda)

※ lambda : 일정시간,공간에서 발생하는 사건 회수

R 예제

# 람다가 3인 포아송 분포
> x = 0:10; lambda=3
> 
> # pdf
> py = dpois(x,lambda) # PDF
> plot(x, py,xlab="x", ylab="p(x)", type='h', lwd = 3, main="pdf")
> # pdf
> py = dpois(x,lambda) # PDF
> plot(x, py,xlab="x", ylab="p(x)", type='h', lwd = 3, main="pdf")
> cy = ppois(q=x, lambda) # CDF
> plot(x,cy,xlab="X", ylab="F(X)=P(X≤x)", lwd = 3, pch=16, main="cdf")
> for(i in x) { lines(c( x[i+1],x[i+2]), c(cy[i+1],cy[i+1]) )  }

포아송 분포와 이항분포와의 관계

만일 확률변수 Y를 1분에 발생하는 사건의 수이고, Y는 평균 횟수 λ 인 포아송 분포를 따른다 고 하자. ($Y\sim P(\lambda)$)
구간을 충분히 큰 n으로 나누고, 확률변수 X를 나눈 구간에서 발생한 사건의 수라고 하면 각 구간은 평균 λ /n 의 포아송 분포를 따르게 된다 ($X\sim P(\lambda / n)$)
이는 또한 또한 이항분포와 동일한 상황이 된다. $X\sim B(n,λ /n)$
n이 충분히 크고 p가 작은 이항분포는 포아송 분포를 근사한다

n이 한번 베르누이, 여러번 이항분포, 무한대 포아송

Twitter Facebook LinkedIn

이산형 확률분포

베르누이 분포

이항분포

기하분포

음이항분포 - 기하분포(Geom)의 확장

초기하 분포

포아송 분포

포아송 분포와 이항분포와의 관계

공유하기

댓글남기기

참고

electron 에서 sqlite3설치후 Cannot find module node_sqlite3.node 오류 발생시 해결 방법

텍스트마이닝 토픽모델, LDA(Latent Dirichlet Allocation)

[d3.js] d3.js 오류

[hive.connect] thrift.transport.TTransport.TTransportException 오류 발생