'보안통계학'에 해당되는 글 4건

  1. 2014.05.25 점추정, 구간추정 2
  2. 2014.05.25 정규분포와 표준화 4
  3. 2014.04.05 (2014.03.12) 중심극한정리, 정규분포
  4. 2014.03.19 (2014.03.19) 통계용어

참고문헌 및 사이트



1. 점추정(point estimation)

- 모수를 하나의 값으로 추정하는 것

- 표본의 평균이나 중위수가 많이 쓰임. 최빈값, 최소값도 사용할 수 있음

- 추정량을 선택할 때 좋은 성질 : 성질들이 좋다는 것은 모수의 특성을 잘 대변한다는 것임)

1) 불편향성(unbiasedness)

- 모든 가능한 표본에서 얻은 추정량의 기대값. 즉 추정량의 평균이 추정하려고하는 모수의 값과 같아야 함

2) 효율성(efficiency)

- 추정량의 분산이 작을수록 좋다.

3) 일치서(consistency)

- 표본의 크기가 아주 커지면, 추정값이 참값과 거의 같아진다


2. 구간추정(interval estimation)

- 모수의 추정량을 한 개의 숫자로 나타내는 것이 알기는 쉽지만, 맞는 경우보다 틀리는 경우가 더 많다.

- 모수가 포함되었을 것이라고 판단하는 구간을 제시하는 것이 구간 추정

- 모수가 포함되었을 것이라고 제시한 구간을 신뢰구간(confidence interval)이라고 한다.

- 신뢰구간에서 확신하는 정도를 신뢰수준(reliability level)이리고 한다.

- 신뢰수준은 아무렇게나 정하는 것이 아니고 대부분 특정한 값들 중에서 선택하여 사용한다

- 보통은 신뢰수준을 95%를 사용한다.

- 신뢰수준이 95%라는 뜻으 동일한 방법으로 100번의 연구를 반복하면 그 중 신뢰구간안에 모수가 포함되지 않는

   경우가 5번이 될 것이라는 뜻이다.


3. 신뢰구간추정의 성격




4. 표준오차를 사용하는 이유





Posted by i kiss you
,

참고문헌 및 사이트

- 통계학의 이해(이용구, 김상용 지음. 율곡출판사)

http://gongsin.com/bbs/board.php?bo_table=gongsin_column_bbs&wr_id=250458


정규분포, 표준화.hwp



1) 표준화를 하는 이유

- 서로 다른 통계 데이터들을 비교하기 용이하기 때문이다

- 어떤 변수를 어떤 표본에 대해 통계를 구하였는가에 따라 평균과 분산값은 제각각이기 때문에, 서로 비교하기가

   불편하다.

- 표준화를 하면 평균은 0, 분산과 표준편차는 1이 되므로 비교하기가 용이하다.








Posted by i kiss you
,

참고문헌 및 인터넷 출처

http://www.doc88.com/p-393989314472.html

- 위키피디아


1. 중심극한정리(CLT, Central Limit Theorem)

- 모집단의 평균이  이고 분산이 일 때, 임의 추출된 크기가 n 인 표본으로부터

   계산된 표본평균은 표본의 n의 크기가 큰 경우 (보통 30이상) 근사적으로 정규분포

   를 따른다.

- 표본의 크기가 충분히 커짐에 따라, 수렴하는 확률적 현상


Notice that when the sample size approaches a couple dozen, the distribution of the average is very nearly Normal, even though the parent distribution looks anything but Normal.


CLT Uniform (animated)


2. 정규분포

1) 정의

- 정규분포(가우스 분포)는 연속 확률 분포의 하나이다. 정규분포는 수집된 자

   료의 분포를 근사하는 데에 자주 사용되며, 이것은 중심극한정리에 의하여 

   독립적인 확률변수들의 평균은 정규분포에 가까워지는 성질이 있기 때문이다.

- 정규분포는 2개의 매개 변수 평균 표준편차 에 대해 모양이 결정

- 이 때의 분포를 로 표기

- 특히, 평균이 0 이고 표준편차가 1인 정규분포를 N(0, 1)을 표준정규분포라고 

   한다



붉은 색은 표준정규분포


2) 파이썬 코드 (출처 : 위키피디아)

# Normal Distribution import numpy as np import matplotlib.pyplot as plt def make_gauss(N, sig, mu): return lambda x: N/(sig * (2*np.pi)**.5) * np.e ** (-(x-mu)**2/(2 * sig**2)) def main(): ax = plt.figure().add_subplot(1,1,1) x = np.arange(-5, 5, 0.01) s = np.sqrt([0.2, 1, 5, 0.5]) m = [0, 0, 0, -2] c = ['b','r','y','g'] for sig, mu, color in zip(s, m, c): gauss = make_gauss(1, sig, mu)(x) ax.plot(x, gauss, color, linewidth=2) plt.xlim(-5, 5) plt.ylim(0, 1) plt.legend(['0.2', '1.0', '5.0', '0.5'], loc='best') plt.show() if __name__ == '__main__': main()


3) 정규분포의 확률밀도함수



4) 정규분포의 특성



5) 정규분포의 유형






'My 고려대 정보보호대학원 > 07. (전공) 보안통계학' 카테고리의 다른 글

점추정, 구간추정  (2) 2014.05.25
표준편차, 표준오차  (0) 2014.05.25
정규분포와 표준화  (4) 2014.05.25
(2014.03.19) 통계용어  (0) 2014.03.19
Posted by i kiss you
,

1. Average

- 그룹의 대표를 뜻함

- Average 를 구하는 방법으로 Mean, Mode, Median 이 있다.


1) Mean

- 모든 변수의 총합 / 변수 개수



2) Mode

- 가장 자주 나오는 값



3) Median (중앙값)

- 모든 변수를 크기순으로 배열했을 때 중간에 오는 값



2. Percentile (백분위값)

- 작은것부터 큰것까지 크기 순으로 나열했을 때 전체 자료중에서 위치한 값

- 전체 자료 개수에서 1%가 있는 값을 제1백분위수라고 함

- 계산한 백분위가 정수값이 아니면 올림을 한 위치가 백분위가 되고

   계산한 백분위가 정수값이 나오면 나온 정수값과 그 값의 + 1 위치의 평균이 백분

   위수가 된다




3. Quartile (사분위값)

- Quartile 은 전체 데이터 set 에서 일정 포지션에 위치하고 있는 값

- 전체 데이터 셋에서 25%, 50%, 75% 위치를 말하는 것임




- Box and Whisker Plot 과 사분위값 관계


4. Range (범위)

- 자료의 가장 큰 값과 가장 작은 값 간의 차이



5. Interquartile Range (IQR, 사분위간 범위)

- 제3사분위와 제1사분위간 범위



6. Variance (분산)

- 각 관찰값들이 '산술 평균으로부터' 얼마나 떨어져 있는지 그 떨어진 정도에 대한

   크기를 측정

- 분산에 제곱을 하는 이유는 평균에 대한 양/음 차이를 좀 더 편리하게 계산하기 위함



- sample variance 와 population variance 에서 분모의 차이는 아래 문서 참조


(201305720 김정선) sample variance 과제.docx



7. Standard Deviation (표준편차)

- 분산의 제곱근의 값



8. Coefficient of variation (변동계수, 변이계수)

- 변이계수 = (표준편차 / 산술평균) * 100

- 값이 작을수록 분포가 고르다



9. Skewness (왜도)

- 데이터 분포가 치우친(비대칭) 정도



10. z-score (표준 점수)

- 통계학적으로 정규분포를 만들고 개개의 경우가 표준편차상에 어떤 위치를 차지하

   는지를 보여주는 차원없는 수치





11. Empirical Rule (경험적인 규칙)

- 통계학에서 68-95-99.7 규칙은 정규 분포를 나타내는 규칙으로, 경험적인 규칙이

   라고도 한다. 3시그마 규칙(three-sigma rule) 이라고도 하는데 이 때는 평균에서 

   양쪽으로 3 표준편차의 범위에 거의 모든 값들(99.7%)이 들어간다는 것을 나타낸

   다.

      • 약 68%의 값들이 평균에서 양쪽으로 1 표준편차 범위(μ±σ)에 존재한다.
      • 약 95%의 값들이 평균에서 양쪽으로 2 표준편차 범위(μ±2σ)에 존재한다.
      • 거의 모든 값들(실제로는 99.7%)이 평균에서 양쪽으로 3표준편차 범위(μ±3σ)에 존재한다.



12. Outlier (이상치)

- 다른 변수값과 다른 유형을 보이는 변수값을 의미한다.

- z-score 보다 +- 3 큰 변수값





Posted by i kiss you
,