1. Average

- 그룹의 대표를 뜻함

- Average 를 구하는 방법으로 Mean, Mode, Median 이 있다.


1) Mean

- 모든 변수의 총합 / 변수 개수



2) Mode

- 가장 자주 나오는 값



3) Median (중앙값)

- 모든 변수를 크기순으로 배열했을 때 중간에 오는 값



2. Percentile (백분위값)

- 작은것부터 큰것까지 크기 순으로 나열했을 때 전체 자료중에서 위치한 값

- 전체 자료 개수에서 1%가 있는 값을 제1백분위수라고 함

- 계산한 백분위가 정수값이 아니면 올림을 한 위치가 백분위가 되고

   계산한 백분위가 정수값이 나오면 나온 정수값과 그 값의 + 1 위치의 평균이 백분

   위수가 된다




3. Quartile (사분위값)

- Quartile 은 전체 데이터 set 에서 일정 포지션에 위치하고 있는 값

- 전체 데이터 셋에서 25%, 50%, 75% 위치를 말하는 것임




- Box and Whisker Plot 과 사분위값 관계


4. Range (범위)

- 자료의 가장 큰 값과 가장 작은 값 간의 차이



5. Interquartile Range (IQR, 사분위간 범위)

- 제3사분위와 제1사분위간 범위



6. Variance (분산)

- 각 관찰값들이 '산술 평균으로부터' 얼마나 떨어져 있는지 그 떨어진 정도에 대한

   크기를 측정

- 분산에 제곱을 하는 이유는 평균에 대한 양/음 차이를 좀 더 편리하게 계산하기 위함



- sample variance 와 population variance 에서 분모의 차이는 아래 문서 참조


(201305720 김정선) sample variance 과제.docx



7. Standard Deviation (표준편차)

- 분산의 제곱근의 값



8. Coefficient of variation (변동계수, 변이계수)

- 변이계수 = (표준편차 / 산술평균) * 100

- 값이 작을수록 분포가 고르다



9. Skewness (왜도)

- 데이터 분포가 치우친(비대칭) 정도



10. z-score (표준 점수)

- 통계학적으로 정규분포를 만들고 개개의 경우가 표준편차상에 어떤 위치를 차지하

   는지를 보여주는 차원없는 수치





11. Empirical Rule (경험적인 규칙)

- 통계학에서 68-95-99.7 규칙은 정규 분포를 나타내는 규칙으로, 경험적인 규칙이

   라고도 한다. 3시그마 규칙(three-sigma rule) 이라고도 하는데 이 때는 평균에서 

   양쪽으로 3 표준편차의 범위에 거의 모든 값들(99.7%)이 들어간다는 것을 나타낸

   다.

      • 약 68%의 값들이 평균에서 양쪽으로 1 표준편차 범위(μ±σ)에 존재한다.
      • 약 95%의 값들이 평균에서 양쪽으로 2 표준편차 범위(μ±2σ)에 존재한다.
      • 거의 모든 값들(실제로는 99.7%)이 평균에서 양쪽으로 3표준편차 범위(μ±3σ)에 존재한다.



12. Outlier (이상치)

- 다른 변수값과 다른 유형을 보이는 변수값을 의미한다.

- z-score 보다 +- 3 큰 변수값





Posted by i kiss you
,