목차
1. 통계학이란?(feat. 모집단, 표본, 추론)
2. 기술 통계학과 추론 통계학
3. 가설 검정, 귀무 가설, 대립 가설
1. 통계학이란?(feat. 모집단, 표본, 추론)
통계학을 한마디로 요약하면, 일부분을 통해 전체를 파악하려는 모든 노력이라고 할 수 있다. 다음은 통계학에 대한 정의이다.
- 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야
- 연구 목적에 필요한 자료 및 정보를 최적한 방법으로 수집하고, 수집한 자료를 과학적이고 논리적인 이론에 의하여 정리 분석하는 학문
- 통계학은 관심 또는 연구의 대상이 되는 모집단(population)으로 부터 자료를 수집, 정리, 요약을 하고 표본(수집한 자료, sample) 정보로부터 자료를 추출했던 대상 전체인 모집단에 대한 최적의 의사 결정을 내릴 수 있도록 정확한 정보를 제공하는 방법론을 연구하는 학문
모집단과 표본은 뭘까?
- 모집단(어미모): 아직 가지고 있지 않은 모르는 데이터를 포함한 모든 데이터(표본의 전체) = 관심의 대상이 되는 집단
- 표본: 모집단의 전체 데이터를 분석하기 위해 수집된 일부 데이터
즉, 표본은 단지 모집단의 일부이기 때문에 너무 맹신하면 안된다.
예를 들어, 한 학교에서 학생들의 수학 시험 성적을 분석하여 학생들의 전반적인 학업 수준을 평가하려고 한다고 해보자. 이때 통계학을 활용하여 다음과 같은 절차를 거칠 수 있다.
- 모집단 (Population): 모든 학생들의 수학 시험 성적을 모아서 전체 학생들의 평균 성적을 구하고자 하는 것이 모집단이다. 모든 학생들의 성적을 수집하는 것은 현실적으로 어렵기 때문에, 일부 학생들의 성적만을 선택하여 분석하게 된다.
- 표본 (Sample): 랜덤하게 선택한 일부 학생들의 수학 시험 성적이 표본이 된다. 이 표본을 통해 전체 학생들의 평균 성적을 추정하게 된다. 예를 들어, 100명의 학생들 중에서 20명을 랜덤하게 선택하여 그들의 성적을 분석한다.
- 추론 (Inference): 표본을 분석하여 전체 학생들의 평균 성적에 대한 추정치를 얻는다. 이때 통계적인 방법을 사용하여 추정치의 신뢰도를 계산하게 된다. 즉, 표본에서 얻은 정보를 바탕으로 모집단의 특성을 추론하는 것이 통계적 추론이다.
이 예시에서는 통계학이 모집단과 표본을 다루고, 표본으로부터 모집단에 대한 정보를 추론하는데 활용된 것을 볼 수 있다. 이런 방식으로 통계학은 다양한 분야에서 데이터를 수집하고 분석하여 의사 결정을 지원하는 중요한 도구로 사용된다.
2. 기술 통계학과 추론 통계학
통계학은 크게 기술 통계학과 추론 통계학으로 분류된다.
기술 통계학(Descriptive Statistics)
- 요약 통계량, 그래프 표 등을 이용해 데이터 정리, 요약하여 데이터의 전반적인 특성을 파악하는 방법
- 합계, 평균 등의 수치들을 표, 그래프 등을 통해 시각적으로 표현하고, 통계량 등으로 수치를 요약.
추론 통계학(Inference Statistics)
- 데이터가 모집단으로부터 나왔다는 가정하에 모집단으로부터 추출된 표본을 사용해서 모집단의 특성을 파악하는 방법
- 점 추정, 구간 추정을 하거나 가설을 검정.
농구팀 A와 B가 최근 시즌 동안 각각 30경기와 25경기를 치른 후, 그들의 득점 데이터를 바탕으로 기술 통계학과 추론 통계학을 적용한 예시를 들어보겠다.
기술 통계학
먼저, 두 팀의 득점 데이터를 기술 통계학적으로 분석해보자.
팀 A의 득점:
- 최소 득점: 65
- 최대 득점: 105
- 평균 득점: 89.2
- 중앙값(중간 값): 87.5
- 득점 편차(변량): 20.8 (편차 = 최대 득점 - 최소 득점)
- 득점 분산: 68.58 (분산 = 각 득점과 평균 득점의 차의 제곱의 평균)
- 득점 표준편차: 약 8.28 (표준편차 = 분산의 제곱근)
팀 B의 득점:
- 최소 득점: 58
- 최대 득점: 98
- 평균 득점: 76.4
- 중앙값(중간 값): 75.5
- 득점 편차(변량): 40 (편차 = 최대 득점 - 최소 득점)
- 득점 분산: 160.8 (분산 = 각 득점과 평균 득점의 차의 제곱의 평균)
- 득점 표준편차: 약 12.68 (표준편차 = 분산의 제곱근)
추론 통계학
이제, 두 팀의 득점 데이터를 바탕으로 추론 통계학적으로 분석해보겠다.
표본 크기:
- 팀 A: 30
- 팀 B: 25
가설 검정:
- 가설: 팀 A의 평균 득점과 팀 B의 평균 득점은 같다.
- 유의수준(alpha): 0.05 (5%)
점 추정 및 구간 추정:
- 점 추정: 팀 A의 평균 득점은 89.2, 팀 B의 평균 득점은 76.4
- 신뢰구간: 95% 신뢰수준에서 팀 A의 평균 득점은 약 84.9에서 93.5 사이, 팀 B의 평균 득점은 약 70.9에서 81.9 사이로 추정됨.
이와 같이, 기술 통계학은 데이터의 특성을 정리하고 요약하여 전반적인 정보를 얻는 데 활용되며, 추론 통계학은 표본을 통해 모집단의 특성을 추론하고 가설을 검정하는 데 사용된다.
3. 가설 검정, 귀무 가설, 대립 가설
가설 검정이란, 통계적 추론의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정이다. 즉, 귀무 가설을 검정하고 대립 가설이 맞다는 걸 증명하는 과정을 의미한다.
- 귀무 가설(=영 가설): 지동설같은 것. 기본적으로 참으로 추정되며, 처음부터 버릴 것으로 예상하는 가설.
- 대립 가설(=연구 가설): 귀무 가설과 대립하는 명제.
가설 검정과 대립 가설의 세 가지 종류에 대한 예시를 통해 설명해보겠다.
가설 검정 예시
한 학교에서 새로운 수업 방식이 수학 성적 향상에 도움이 되는지 확인하려고 한다. 이 때, 가설 검정을 사용하여 수업 방식의 효과를 평가하게 된다.
귀무 가설(영 가설)과 대립 가설
귀무 가설: 새로운 수업 방식은 수학 성적에 영향을 미치지 않는다. (H0: μ = μ0)
대립 가설: 새로운 수업 방식은 수학 성적을 향상시킨다. (H1: μ > μ0)
대립 가설의 3가지 종류
1. 제 1형 대립 가설 (양측 검정)
새로운 수업 방식이 수학 성적에 변화를 주는지 확인하려고 할 때, 우리가 관심 있는 것은 수학 성적이 "다르게" 변하는지 이다. 따라서 대립 가설은 다음과 같이 설정될 수 있다.
대립 가설: 새로운 수업 방식은 수학 성적에 변화를 준다. (H1: μ ≠ μ0)
2. 제 2형 대립 가설 (단측 검정 - 상위 방향)
만약 우리가 새로운 수업 방식이 기존보다 "높은" 성적을 가져온다는 것에 관심이 있다면, 대립 가설은 다음과 같이 설정될 수 있다.
대립 가설: 새로운 수업 방식은 수학 성적을 기존보다 높게 만든다. (H1: μ > μ0)
3. 제 3형 대립 가설 (단측 검정 - 하위 방향)
반대로, 만약 우리가 새로운 수업 방식이 기존보다 "낮은" 성적을 가져온다는 것에 관심이 있다면, 대립 가설은 다음과 같이 설정될 수 있다.
대립 가설: 새로운 수업 방식은 수학 성적을 기존보다 낮게 만든다. (H1: μ < μ0)
이렇게 예시를 통해 귀무가설과 대립 가설의 세 가지 종류를 살펴봤다. 데이터를 통해 대립가설이 참이라는 걸 증명했다면, 이를 통해서 새로운 수업 방식을 도입하자는 의사결정을 내릴 수 있다. 통계학의 목적은 실무자의 주관적인 감, 추측에 의한 의사결정보다는 위 예시에서 살펴본 것 처럼 자료에 근거한 합리적인 의사결정을 목표로 한다.
'데이터분석 > 통계, AB테스트' 카테고리의 다른 글
A/B 테스트를 통계적으로 신뢰할 수 있게 하기 위한 사전 작업들 (0) | 2024.04.14 |
---|---|
5가지 사례를 통해 알아보는 A/B테스트의 필요성 (0) | 2024.03.08 |
A/B 테스트 설계 및 방법과 유의 사항 with 실무예제 (0) | 2023.08.14 |
기초 통계 용어 정리 (1) | 2023.08.09 |
데이터 분석의 목적 및 프로세스 (0) | 2023.08.04 |
댓글