'My 고려대 정보보호대학원/07. (전공) 보안통계학' 카테고리의 글 목록

점추정, 구간추정

My 고려대 정보보호대학원/07. (전공) 보안통계학 2014. 5. 25. 17:10

참고문헌 및 사이트

1. 점추정(point estimation)

- 모수를 하나의 값으로 추정하는 것

- 표본의 평균이나 중위수가 많이 쓰임. 최빈값, 최소값도 사용할 수 있음

- 추정량을 선택할 때 좋은 성질 : 성질들이 좋다는 것은 모수의 특성을 잘 대변한다는 것임)

1) 불편향성(unbiasedness)

- 모든 가능한 표본에서 얻은 추정량의 기대값. 즉 추정량의 평균이 추정하려고하는 모수의 값과 같아야 함

2) 효율성(efficiency)

- 추정량의 분산이 작을수록 좋다.

3) 일치서(consistency)

- 표본의 크기가 아주 커지면, 추정값이 참값과 거의 같아진다

2. 구간추정(interval estimation)

- 모수의 추정량을 한 개의 숫자로 나타내는 것이 알기는 쉽지만, 맞는 경우보다 틀리는 경우가 더 많다.

- 모수가 포함되었을 것이라고 판단하는 구간을 제시하는 것이 구간 추정

- 모수가 포함되었을 것이라고 제시한 구간을 신뢰구간(confidence interval)이라고 한다.

- 신뢰구간에서 확신하는 정도를 신뢰수준(reliability level)이리고 한다.

- 신뢰수준은 아무렇게나 정하는 것이 아니고 대부분 특정한 값들 중에서 선택하여 사용한다

- 보통은 신뢰수준을 95%를 사용한다.

- 신뢰수준이 95%라는 뜻으 동일한 방법으로 100번의 연구를 반복하면 그 중 신뢰구간안에 모수가 포함되지 않는

경우가 5번이 될 것이라는 뜻이다.

3. 신뢰구간추정의 성격

4. 표준오차를 사용하는 이유

저작자표시 비영리 변경금지

'My 고려대 정보보호대학원 > 07. (전공) 보안통계학' 카테고리의 다른 글

표준편차, 표준오차 (0)	2014.05.25
정규분포와 표준화 (4)	2014.05.25
(2014.03.12) 중심극한정리, 정규분포 (0)	2014.04.05
(2014.03.19) 통계용어 (0)	2014.03.19

Posted by i kiss you

,

표준편차, 표준오차

My 고려대 정보보호대학원/07. (전공) 보안통계학 2014. 5. 25. 16:24

참고문헌 및 사이트

1. 표준편차(standard deviation)

- 각 데이터가 평균과 얼마나 차이를 가지느냐를 알려준다

- 데이터의 퍼짐 정도

- 분산의 양의 제곱근

2. 표준오차(standard error)

- 표준편차를 표본크기의 양으 제곱근으로 나눈 값

- 샘플림을 여러 번 했을 때 각 샘플들의 평균이 전체 평균과 얼마나 차이를 보이는지 알 수 있는 통계량

저작자표시 비영리 변경금지

'My 고려대 정보보호대학원 > 07. (전공) 보안통계학' 카테고리의 다른 글

점추정, 구간추정 (2)	2014.05.25
정규분포와 표준화 (4)	2014.05.25
(2014.03.12) 중심극한정리, 정규분포 (0)	2014.04.05
(2014.03.19) 통계용어 (0)	2014.03.19

Posted by i kiss you

,

정규분포와 표준화

My 고려대 정보보호대학원/07. (전공) 보안통계학 2014. 5. 25. 09:48

참고문헌 및 사이트

- 통계학의 이해(이용구, 김상용 지음. 율곡출판사)

- http://gongsin.com/bbs/board.php?bo_table=gongsin_column_bbs&wr_id=250458

정규분포, 표준화.hwp

1) 표준화를 하는 이유

- 서로 다른 통계 데이터들을 비교하기 용이하기 때문이다

- 어떤 변수를 어떤 표본에 대해 통계를 구하였는가에 따라 평균과 분산값은 제각각이기 때문에, 서로 비교하기가

불편하다.

- 표준화를 하면 평균은 0, 분산과 표준편차는 1이 되므로 비교하기가 용이하다.

저작자표시 비영리 변경금지

'My 고려대 정보보호대학원 > 07. (전공) 보안통계학' 카테고리의 다른 글

점추정, 구간추정 (2)	2014.05.25
표준편차, 표준오차 (0)	2014.05.25
(2014.03.12) 중심극한정리, 정규분포 (0)	2014.04.05
(2014.03.19) 통계용어 (0)	2014.03.19

Posted by i kiss you

,

(2014.03.12) 중심극한정리, 정규분포

My 고려대 정보보호대학원/07. (전공) 보안통계학 2014. 4. 5. 18:43

참고문헌 및 인터넷 출처

- http://www.doc88.com/p-393989314472.html

- 위키피디아

1. 중심극한정리(CLT, Central Limit Theorem)

- 모집단의 평균이 이고 분산이 일 때, 임의 추출된 크기가 n 인 표본으로부터

계산된 표본평균은 표본의 n의 크기가 큰 경우 (보통 30이상) 근사적으로 정규분포

를 따른다.

- 표본의 크기가 충분히 커짐에 따라, 수렴하는 확률적 현상

Notice that when the sample size approaches a couple dozen, the distribution of the average is very nearly Normal, even though the parent distribution looks anything but Normal.

CLT Uniform (animated)

2. 정규분포

1) 정의

- 정규분포(가우스 분포)는 연속 확률 분포의 하나이다. 정규분포는 수집된 자

료의 분포를 근사하는 데에 자주 사용되며, 이것은 중심극한정리에 의하여

독립적인 확률변수들의 평균은 정규분포에 가까워지는 성질이 있기 때문이다.

- 정규분포는 2개의 매개 변수 평균 표준편차 에 대해 모양이 결정

- 이 때의 분포를 로 표기

- 특히, 평균이 0 이고 표준편차가 1인 정규분포를 N(0, 1)을 표준정규분포라고

한다

붉은 색은 표준정규분포

2) 파이썬 코드 (출처 : 위키피디아)

#                    Normal Distribution
import numpy as np
import matplotlib.pyplot as plt 

def make_gauss(N, sig, mu):
    return lambda x: N/(sig * (2*np.pi)**.5) * np.e ** (-(x-mu)**2/(2 * sig**2))

def main():
    ax = plt.figure().add_subplot(1,1,1)
    x = np.arange(-5, 5, 0.01)
    s = np.sqrt([0.2, 1, 5, 0.5])
    m = [0, 0, 0, -2] 
    c = ['b','r','y','g']

    for sig, mu, color in zip(s, m, c): 
        gauss = make_gauss(1, sig, mu)(x)
        ax.plot(x, gauss, color, linewidth=2)

    plt.xlim(-5, 5)
    plt.ylim(0, 1)
    plt.legend(['0.2', '1.0', '5.0', '0.5'], loc='best')
    plt.show()

if __name__ == '__main__':
   main()

3) 정규분포의 확률밀도함수


4) 정규분포의 특성


5) 정규분포의 유형

저작자표시 비영리 변경금지

'My 고려대 정보보호대학원 > 07. (전공) 보안통계학' 카테고리의 다른 글

점추정, 구간추정 (2)	2014.05.25
표준편차, 표준오차 (0)	2014.05.25
정규분포와 표준화 (4)	2014.05.25
(2014.03.19) 통계용어 (0)	2014.03.19

Posted by i kiss you

,

(2014.03.19) 통계용어

My 고려대 정보보호대학원/07. (전공) 보안통계학 2014. 3. 19. 23:51

1. Average

- 그룹의 대표를 뜻함

- Average 를 구하는 방법으로 Mean, Mode, Median 이 있다.

1) Mean

- 모든 변수의 총합 / 변수 개수

2) Mode

- 가장 자주 나오는 값

3) Median (중앙값)

- 모든 변수를 크기순으로 배열했을 때 중간에 오는 값

2. Percentile (백분위값)

- 작은것부터 큰것까지 크기 순으로 나열했을 때 전체 자료중에서 위치한 값

- 전체 자료 개수에서 1%가 있는 값을 제1백분위수라고 함

- 계산한 백분위가 정수값이 아니면 올림을 한 위치가 백분위가 되고

계산한 백분위가 정수값이 나오면 나온 정수값과 그 값의 + 1 위치의 평균이 백분

위수가 된다

3. Quartile (사분위값)

- Quartile 은 전체 데이터 set 에서 일정 포지션에 위치하고 있는 값

- 전체 데이터 셋에서 25%, 50%, 75% 위치를 말하는 것임

- Box and Whisker Plot 과 사분위값 관계

4. Range (범위)

- 자료의 가장 큰 값과 가장 작은 값 간의 차이

5. Interquartile Range (IQR, 사분위간 범위)

- 제3사분위와 제1사분위간 범위

6. Variance (분산)

- 각 관찰값들이 '산술 평균으로부터' 얼마나 떨어져 있는지 그 떨어진 정도에 대한

크기를 측정

- 분산에 제곱을 하는 이유는 평균에 대한 양/음 차이를 좀 더 편리하게 계산하기 위함

- sample variance 와 population variance 에서 분모의 차이는 아래 문서 참조

(201305720 김정선) sample variance 과제.docx

7. Standard Deviation (표준편차)

- 분산의 제곱근의 값

8. Coefficient of variation (변동계수, 변이계수)

- 변이계수 = (표준편차 / 산술평균) * 100

- 값이 작을수록 분포가 고르다

9. Skewness (왜도)

- 데이터 분포가 치우친(비대칭) 정도

10. z-score (표준 점수)

- 통계학적으로 정규분포를 만들고 개개의 경우가 표준편차상에 어떤 위치를 차지하

는지를 보여주는 차원없는 수치

11. Empirical Rule (경험적인 규칙)

- 통계학에서 68-95-99.7 규칙은 정규 분포를 나타내는 규칙으로, 경험적인 규칙이

라고도 한다. 3시그마 규칙(three-sigma rule) 이라고도 하는데 이 때는 평균에서

양쪽으로 3 표준편차의 범위에 거의 모든 값들(99.7%)이 들어간다는 것을 나타낸

다.

약 68%의 값들이 평균에서 양쪽으로 1 표준편차 범위(μ±σ)에 존재한다.
약 95%의 값들이 평균에서 양쪽으로 2 표준편차 범위(μ±2σ)에 존재한다.
거의 모든 값들(실제로는 99.7%)이 평균에서 양쪽으로 3표준편차 범위(μ±3σ)에 존재한다.

12. Outlier (이상치)

- 다른 변수값과 다른 유형을 보이는 변수값을 의미한다.

- z-score 보다 +- 3 큰 변수값

[출처] 이상치(Outlier)를 검출하는 방법|작성자 변곡점

저작자표시 비영리 변경금지

'My 고려대 정보보호대학원 > 07. (전공) 보안통계학' 카테고리의 다른 글

점추정, 구간추정 (2)	2014.05.25
표준편차, 표준오차 (0)	2014.05.25
정규분포와 표준화 (4)	2014.05.25
(2014.03.12) 중심극한정리, 정규분포 (0)	2014.04.05

Posted by i kiss you

,

나경아빠의 스케치북 - 고통은 희망의 씨앗이다

'My 고려대 정보보호대학원/07. (전공) 보안통계학'에 해당되는 글 5건

점추정, 구간추정

'My 고려대 정보보호대학원 > 07. (전공) 보안통계학' 카테고리의 다른 글

표준편차, 표준오차

'My 고려대 정보보호대학원 > 07. (전공) 보안통계학' 카테고리의 다른 글

정규분포와 표준화

'My 고려대 정보보호대학원 > 07. (전공) 보안통계학' 카테고리의 다른 글

(2014.03.12) 중심극한정리, 정규분포

'My 고려대 정보보호대학원 > 07. (전공) 보안통계학' 카테고리의 다른 글

(2014.03.19) 통계용어

'My 고려대 정보보호대학원 > 07. (전공) 보안통계학' 카테고리의 다른 글

카테고리

최근에 올라온 글

최근에 달린 댓글

티스토리툴바