본문 바로가기
데이터분석/통계, AB테스트

[통계학]모집단과 표본, 기술 통계학과 추론 통계학, 가설 검정(귀무 가설, 대립 가설)

by 코듀킹 2023. 8. 7.
목차
1. 통계학이란?(feat. 모집단, 표본, 추론)
2. 기술 통계학과 추론 통계학
3. 가설 검정, 귀무 가설, 대립 가설

 

1. 통계학이란?(feat. 모집단, 표본, 추론)

통계학을 한마디로 요약하면, 일부분을 통해 전체를 파악하려는 모든 노력이라고 할 수 있다. 다음은 통계학에 대한 정의이다. 

 

  • 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야
  • 연구 목적에 필요한 자료 및 정보를 최적한 방법으로 수집하고, 수집한 자료를 과학적이고 논리적인 이론에 의하여 정리 분석하는 학문
  • 통계학은 관심 또는 연구의 대상이 되는 모집단(population)으로 부터 자료를 수집, 정리, 요약을 하고 표본(수집한 자료, sample) 정보로부터 자료를 추출했던 대상 전체인 모집단에 대한 최적의 의사 결정을 내릴 수 있도록 정확한 정보를 제공하는 방법론을 연구하는 학문

 

모집단과 표본은 뭘까?

  • 모집단(어미모): 아직 가지고 있지 않은 모르는 데이터를 포함한 모든 데이터(표본의 전체) = 관심의 대상이 되는 집단
  • 표본: 모집단의 전체 데이터를 분석하기 위해 수집된 일부 데이터

즉, 표본은 단지 모집단의 일부이기 때문에 너무 맹신하면 안된다.

 

예를 들어, 한 학교에서 학생들의 수학 시험 성적을 분석하여 학생들의 전반적인 학업 수준을 평가하려고 한다고 해보자. 이때 통계학을 활용하여 다음과 같은 절차를 거칠 수 있다.

  • 모집단 (Population): 모든 학생들의 수학 시험 성적을 모아서 전체 학생들의 평균 성적을 구하고자 하는 것이 모집단이다. 모든 학생들의 성적을 수집하는 것은 현실적으로 어렵기 때문에, 일부 학생들의 성적만을 선택하여 분석하게 된다.
  • 표본 (Sample): 랜덤하게 선택한 일부 학생들의 수학 시험 성적이 표본이 된다. 이 표본을 통해 전체 학생들의 평균 성적을 추정하게 된다. 예를 들어, 100명의 학생들 중에서 20명을 랜덤하게 선택하여 그들의 성적을 분석한다.
  • 추론 (Inference): 표본을 분석하여 전체 학생들의 평균 성적에 대한 추정치를 얻는다. 이때 통계적인 방법을 사용하여 추정치의 신뢰도를 계산하게 된다. 즉, 표본에서 얻은 정보를 바탕으로 모집단의 특성을 추론하는 것이 통계적 추론이다.

예시에서는 통계학이 모집단과 표본을 다루고, 표본으로부터 모집단에 대한 정보를 추론하는데 활용된 것을 있다. 이런 방식으로 통계학은 다양한 분야에서 데이터를 수집하고 분석하여 의사 결정을 지원하는 중요한 도구로 사용된다.

 

 

2. 기술 통계학과 추론 통계학

통계학은 크게 기술 통계학과 추론 통계학으로 분류된다. 

 

기술 통계학(Descriptive Statistics)

  • 요약 통계량, 그래프 표 등을 이용해 데이터 정리, 요약하여 데이터의 전반적인 특성을 파악하는 방법
  • 합계, 평균 등의 수치들을 표, 그래프 등을 통해 시각적으로 표현하고, 통계량 등으로 수치를 요약.

 

추론 통계학(Inference Statistics)

  • 데이터가 모집단으로부터 나왔다는 가정하에 모집단으로부터 추출된 표본을 사용해서 모집단의 특성을 파악하는 방법
  • 점 추정, 구간 추정을 하거나 가설을 검정.

 

농구팀 A와 B가 최근 시즌 동안 각각 30경기와 25경기를 치른 후, 그들의 득점 데이터를 바탕으로 기술 통계학과 추론 통계학을 적용한 예시를 들어보겠다. 

기술 통계학

먼저, 두 팀의 득점 데이터를 기술 통계학적으로 분석해보자.

팀 A의 득점:

  • 최소 득점: 65
  • 최대 득점: 105
  • 평균 득점: 89.2
  • 중앙값(중간 값): 87.5
  • 득점 편차(변량): 20.8 (편차 = 최대 득점 - 최소 득점)
  • 득점 분산: 68.58 (분산 = 각 득점과 평균 득점의 차의 제곱의 평균)
  • 득점 표준편차: 약 8.28 (표준편차 = 분산의 제곱근)

팀 B의 득점:

  • 최소 득점: 58
  • 최대 득점: 98
  • 평균 득점: 76.4
  • 중앙값(중간 값): 75.5
  • 득점 편차(변량): 40 (편차 = 최대 득점 - 최소 득점)
  • 득점 분산: 160.8 (분산 = 각 득점과 평균 득점의 차의 제곱의 평균)
  • 득점 표준편차: 약 12.68 (표준편차 = 분산의 제곱근)

추론 통계학

이제, 두 팀의 득점 데이터를 바탕으로 추론 통계학적으로 분석해보겠다. 

표본 크기:

  • 팀 A: 30
  • 팀 B: 25

가설 검정:

  • 가설: 팀 A의 평균 득점과 팀 B의 평균 득점은 같다.
  • 유의수준(alpha): 0.05 (5%)

점 추정 및 구간 추정:

  • 점 추정: 팀 A의 평균 득점은 89.2, 팀 B의 평균 득점은 76.4
  • 신뢰구간: 95% 신뢰수준에서 팀 A의 평균 득점은 약 84.9에서 93.5 사이, 팀 B의 평균 득점은 약 70.9에서 81.9 사이로 추정됨.

이와 같이, 기술 통계학은 데이터의 특성을 정리하고 요약하여 전반적인 정보를 얻는 활용되며, 추론 통계학은 표본을 통해 모집단의 특성을 추론하고 가설을 검정하는 사용된다. 

 

3. 가설 검정, 귀무 가설, 대립 가설

가설 검정이란, 통계적 추론의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정이다. 즉, 귀무 가설을 검정하고 대립 가설이 맞다는 걸 증명하는 과정을 의미한다. 

  • 귀무 가설(=영 가설): 지동설같은 것. 기본적으로 참으로 추정되며, 처음부터 버릴 것으로 예상하는 가설.
  • 대립 가설(=연구 가설): 귀무 가설과 대립하는 명제.

 

가설 검정과 대립 가설의 세 가지 종류에 대한 예시를 통해 설명해보겠다.

 

가설 검정 예시

한 학교에서 새로운 수업 방식이 수학 성적 향상에 도움이 되는지 확인하려고 한다. 이 때, 가설 검정을 사용하여 수업 방식의 효과를 평가하게 된다.

 

귀무 가설(영 가설)과 대립 가설

귀무 가설: 새로운 수업 방식은 수학 성적에 영향을 미치지 않는다. (H0: μ = μ0)

대립 가설: 새로운 수업 방식은 수학 성적을 향상시킨다. (H1: μ > μ0)

 

대립 가설의 3가지 종류

1. 제 1형 대립 가설 (양측 검정)

새로운 수업 방식이 수학 성적에 변화를 주는지 확인하려고 할 때, 우리가 관심 있는 것은 수학 성적이 "다르게" 변하는지 이다. 따라서 대립 가설은 다음과 같이 설정될 수 있다.

대립 가설: 새로운 수업 방식은 수학 성적에 변화를 준다. (H1: μ ≠ μ0)

 

2. 제 2형 대립 가설 (단측 검정 - 상위 방향)

만약 우리가 새로운 수업 방식이 기존보다 "높은" 성적을 가져온다는 것에 관심이 있다면, 대립 가설은 다음과 같이 설정될 수 있다.

대립 가설: 새로운 수업 방식은 수학 성적을 기존보다 높게 만든다. (H1: μ > μ0)

 

3. 제 3형 대립 가설 (단측 검정 - 하위 방향)

반대로, 만약 우리가 새로운 수업 방식이 기존보다 "낮은" 성적을 가져온다는 것에 관심이 있다면, 대립 가설은 다음과 같이 설정될 수 있다.

대립 가설: 새로운 수업 방식은 수학 성적을 기존보다 낮게 만든다. (H1: μ < μ0)

 

이렇게 예시를 통해 귀무가설과 대립 가설의 가지 종류를 살펴봤다. 데이터를 통해 대립가설이 참이라는 걸 증명했다면, 이를 통해서 새로운 수업 방식을 도입하자는 의사결정을 내릴 수 있다. 통계학의 목적은 실무자의 주관적인 감, 추측에 의한 의사결정보다는 위 예시에서 살펴본 것 처럼 자료에 근거한 합리적인 의사결정을 목표로 한다. 

댓글