통계 수량형 자료의 표현
자료의 표현 및 Data Visualization
- 수량자료 (numeric 형 변수) : 도수분포:히스토그램, 도수다각형(frequency polygon), 누적도수다각형(ogive), 줄기-잎그림(stem-and-leaf), 상자-수염(box-and-whiskers)
- 범주형 자료(factor 형 변수) : 도수분포:막대그래프, 원그래프(pie chart)
## gender
## F M
## 4 5
table(gender, Btype)
## Btype
## gender A AB B O
## F 2 1 1 0
## M 1 1 2 1
Credit = read.csv('C:/R_Study/u1s4Score.csv',h=T)
# 좀더 부드럽게 하기 위해 200로 나누고 x 축을 줄인다.
hist(Credit$score, breaks=200, freq=FALSE, xlim=c(-7,-2),main="Histogram Of Logit Score", xlab="Logit Score for Default")
#막대그래프에 라인을 추가한다.
lines( density(Credit$score), lwd=2 )
plot(ecdf(Credit$score), xlim=c(-7,-2), main="Empirical Cumulative Distribution Function", xlab="Logit Score for Default")
Stat = read.csv('C:/R_Study/StatScore.csv',h=T)
# 줄기단위 : 10단위, 잎단위 : 1단위
## The decimal point is 1 digit(s) to the right of the |
## 0 | 000
## 1 |
## 2 |
## 3 |
## 4 | 44777
## 5 | 0000003336666689999
## 6 | 222445555557778888888
## 7 | 00000113334444466666789999
## 8 | 000022558888
## 9 | 11
# 줄기단위 : 10단위, 잎단위 : 2단위
stem(Stat$기말고사, scale=2)
## The decimal point is 1 digit(s) to the right of the |
## 0 | 000
## 0 |
## 1 |
## 1 |
## 2 |
## 2 |
## 3 |
## 3 |
## 4 | 44
## 4 | 777
## 5 | 000000333
## 5 | 6666689999
## 6 | 22244
## 6 | 5555557778888888
## 7 | 000001133344444
## 7 | 66666789999
## 8 | 000022
## 8 | 558888
## 9 | 11
줄기 잎그림은 분포모향을 알수 있다.
대칭형분포(symmetric distribution) : 예) 종모양
이봉형분포(bimodal distribution) : 두개의 다른집단이 혼재
균일형 분포(uniform distribution)
편중된 분포(skewed distribution)
- 왼쪽 꼬리분포(skewed to the left), 오른쪽 꼬리 분포(skewed to the right)
box-and-whiskers plot
- 5개의 주요 통계량을 한번에 설명할 수 있다
- 박스의 폭은 Q3(3사분위)-Q1(1사분위)가 박스의 폭 즉 IQR이 된다.
- 박스 안으로는 중앙값에 해당하는 위치를 선으로 긋고, 평균은 + 로 표기 한다.
- 박스 양쪽(Q1,Q3) 로 부터 IQR의 1.5 배안에 있는 가장 크거나 아래로는 가장 작은 데이타 까지 수염(whiskers) 이다.
- 관측값이 IQR의 3배 밖으로 벗어나면 극단 이상치라 하고 ‘*’ 로 표기한다.
- IQR의 1.5~3 배 사이에 존재하면 이상치(mild outlier)라 부르며 ‘o’로 표기한다.