1. Average
- 그룹의 대표를 뜻함
- Average 를 구하는 방법으로 Mean, Mode, Median 이 있다.
1) Mean
- 모든 변수의 총합 / 변수 개수
2) Mode
- 가장 자주 나오는 값
3) Median (중앙값)
- 모든 변수를 크기순으로 배열했을 때 중간에 오는 값
2. Percentile (백분위값)
- 작은것부터 큰것까지 크기 순으로 나열했을 때 전체 자료중에서 위치한 값
- 전체 자료 개수에서 1%가 있는 값을 제1백분위수라고 함
- 계산한 백분위가 정수값이 아니면 올림을 한 위치가 백분위가 되고
계산한 백분위가 정수값이 나오면 나온 정수값과 그 값의 + 1 위치의 평균이 백분
위수가 된다
3. Quartile (사분위값)
- Quartile 은 전체 데이터 set 에서 일정 포지션에 위치하고 있는 값
- 전체 데이터 셋에서 25%, 50%, 75% 위치를 말하는 것임
- Box and Whisker Plot 과 사분위값 관계
4. Range (범위)
- 자료의 가장 큰 값과 가장 작은 값 간의 차이
5. Interquartile Range (IQR, 사분위간 범위)
- 제3사분위와 제1사분위간 범위
6. Variance (분산)
- 각 관찰값들이 '산술 평균으로부터' 얼마나 떨어져 있는지 그 떨어진 정도에 대한
크기를 측정
- 분산에 제곱을 하는 이유는 평균에 대한 양/음 차이를 좀 더 편리하게 계산하기 위함
- sample variance 와 population variance 에서 분모의 차이는 아래 문서 참조
(201305720 김정선) sample variance 과제.docx
7. Standard Deviation (표준편차)
- 분산의 제곱근의 값
8. Coefficient of variation (변동계수, 변이계수)
- 변이계수 = (표준편차 / 산술평균) * 100
- 값이 작을수록 분포가 고르다
9. Skewness (왜도)
- 데이터 분포가 치우친(비대칭) 정도
10. z-score (표준 점수)
- 통계학적으로 정규분포를 만들고 개개의 경우가 표준편차상에 어떤 위치를 차지하
는지를 보여주는 차원없는 수치
11. Empirical Rule (경험적인 규칙)
- 통계학에서 68-95-99.7 규칙은 정규 분포를 나타내는 규칙으로, 경험적인 규칙이
라고도 한다. 3시그마 규칙(three-sigma rule) 이라고도 하는데 이 때는 평균에서
양쪽으로 3 표준편차의 범위에 거의 모든 값들(99.7%)이 들어간다는 것을 나타낸
다.
- 약 68%의 값들이 평균에서 양쪽으로 1 표준편차 범위(μ±σ)에 존재한다.
- 약 95%의 값들이 평균에서 양쪽으로 2 표준편차 범위(μ±2σ)에 존재한다.
- 거의 모든 값들(실제로는 99.7%)이 평균에서 양쪽으로 3표준편차 범위(μ±3σ)에 존재한다.
12. Outlier (이상치)
- 다른 변수값과 다른 유형을 보이는 변수값을 의미한다.
- z-score 보다 +- 3 큰 변수값
[출처] 이상치(Outlier)를 검출하는 방법|작성자 변곡점
'My 고려대 정보보호대학원 > 07. (전공) 보안통계학' 카테고리의 다른 글
점추정, 구간추정 (2) | 2014.05.25 |
---|---|
표준편차, 표준오차 (0) | 2014.05.25 |
정규분포와 표준화 (4) | 2014.05.25 |
(2014.03.12) 중심극한정리, 정규분포 (0) | 2014.04.05 |