본문 바로가기
데이터분석/통계, AB테스트

기초 통계 용어 정리

by 코듀킹 2023. 8. 9.
목차
1. 확률, 표본 공간, 실험, 사건
2. 확률 변수
3. 복원 샘플링과 비복원 샘플링
4. 수치형 변수, 범주형 변수
5. 도수, 평균, 기댓값, 중앙값
6. 분산, 표준편차

1. 확률, 표본 공간, 실험, 사건

  • 표본공간 : 일어날 수 있는 모든 경우의 수(ex. 주사위의 모든 눈 1,2,3,4,5,6)
  • 실험 : 결과를 예측할 수 없는 행동을 취하는 것 (ex. 주사위를 굴리는 행위)
  • 사건 : 실험에 의해 벌어진 일이나 그 값 (ex. 굴렸더니 주사위의 눈이 6이 나옴)
  • 확률 : 어떤 일이 일어날 가능성(ex. 주사위 굴렸을 때 1이 나올 확률은 1/6)

 

$$ P(A) = \frac{A}{S} $$

 

P(A) : Probability = A라는 사건이 발생할 확률

A : A 사건이 일어날 경우의 수

S : 표본 공간

 

2. 확률 변수

  • 확률 변수 : 확률적 법칙에 따라 변화하는 값

 

예를 들어, 호수에 1,2,3,4,5cm의 크기를 가진 물고기가 각각 1마리씩 있다고 해보자. 호수에서 1마리의 물고기를 낚아 올렸을 때, 1cm의 물고기가 나올 확률은 0.2이고, 이때 확률 변수는 1cm이다. 즉, 여기서는 확률 변수가 1,2,3,4,5cm로 총 5가지가 있는 것이다.

 

3. 복원 샘플링과 비복원 샘플링

  • 복원 샘플링 : 한번 뽑은 표본을 다시 모집단에 포함시켜 다음 표본을 샘플링(여러 번 뽑아도 확률이 달라지지 않음)
  • 비복원 샘플링 : 한번 뽑은 표본을 모집단에서 제외시키고 다음 표본을 샘플링(첫번째와 두 번째 뽑기의 확률이 달라짐)

 

위 예시에서, 호수의 전체 물고기 중 몸길이가 3cm인 1마리를 낚아 올렸는데, 그 물고기를 다시 호수에 풀어주고, 다시 낚시를 한다면 복원샘플링이다. 만약 그 물고기를 호수에 풀어주지 않고, 낚시를 한다면 비복원 샘플링이다.

 

  • 호수의 전체 물고기 : 모집단
  • 3cm : 실현값
  • 1마리 : 표본
  • 낚아 올림 : 샘플링

 

4. 수치형 변수, 범주형 변수

변수는 값이 변하는 수로, 수치형 변수와 범주형 변수가 있다.

  • 수치형 변수(Numerical Data) : 측정값이 숫자로 표현되고, 숫자의 크기가 의미를 갖는 자료
    • 이산형 자료(Discrete Data) : 양의 정수로 셀 수 있는 자료(ex. 마트 방문 횟수, 상품의 개수)
    • 연속형 자료(Continuous Data) : 연속되는 수치로 셀 수 없는 자료(ex. 키, 몸무게, 온도 등)
  • 범주형 변수(Categorical Data) : 숫자로 표현할 수 없는 자료를 집단화하여 나타낸 자료
    • 명목형 자료(Nominal Data) : 분류만 하여 값을 부여(ex. MBTI, 성별)
    • 순서형 자료(Ordinal Data) : 순위나 순서의 개념을 갖는 자료(ex. 평점, 학점)

 

5. 도수, 평균, 기댓값, 중앙값

  • 도수 : 데이터가 나타낸 횟수 = 빈도를 숫자로 표현
  • 평균 : 일반적으로 말하는 평균은 산술 평균을 뜻하며 전체 데이터의 개수로 나눈 것
  • 기댓값 : 아직 얻지 못한 모르는 데이터에도 적용 가능한 평균값(나올 것으로 기대되는 평균값)
  • 중앙값 : 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값

위에서 호수와 물고기 예에서 1,2,3,4,5cm 물고기가 각각 호수에 몇 마리씩 있는지를 나타내는 것이 도수이다.  그리고 이를 표로 정리한 것이 도수분포표이고, 카운트하여 막대그래프로 나타낸 것이 히스토그램이다. 1,2,3,4,5cm 물고기가 각각 1마리씩 있다면, 평균 몸길이는 3cm이다.((1+2+3+4+5)/5) 여기서는 호수에 존재하는 모든 물고기를 정렬했을 때, 1,2,3,4,5cm이므로 위치상으로 가운에 있는 중앙값 또한 3cm이다. 만약 물고기의 수가 짝수라면 위치적으로 가운데 있는 2마리의 평균값을 사용한다. 

 

평균은 모든 데이터를 포함한 개념이지만 특잇값에 취약하고, 중앙값은 모든 데이터를 포함하진 않지만 특잇값에 강건하다.(로버스트) 만약 호수에 1,2,3,4,5,100cm의 물고기가 각각 1마리씩 있다면, 평균은 19.2cm가 나오지만, 중앙값은 3.5가 나온다. 즉, 대표값으로서 평균을 쓰는 것은 주의해야 한다. 

 

6. 분산, 표준편차

  • 분산 : 데이터가 '평균(기댓값)과 얼마나 떨어져 있는가'를 나타내는 지표. 분산이 클수록 데이터들이 평균값에서 멀리 떨어져 있다.
  • 표준편차 : 분산의 제곱근. 분산을 계산할 때 데이터에서 평균을 뺀 값을 제곱하는 이유는 결과값의 부호를 없애기 위함이다.(에초에 그냥 제곱을 안 하고, 절대값을 쓰면 되지 않나 의문이 들 수 있지만, 절대값은 미분이 불가능해서 보통 사용하지 않는다.) 결과적으로 분산은 제곱값이므로 사용하기 불편하여 표준편차로 변환 후 사용한다.

$$ 분산 : \sigma^2 = \frac{1}{N}\sum^{N}_{i=1}(X_i - \mu)^2 $$

$$ 표준편차 : \sqrt{\sigma^2} $$

 

위 식을 해석하면, 각각의 데이터에서 평균을 뺀 후, 제곱한 값들을 모두 더한 후, 저체 데이터 개수로 나눈 것이 분산이고, 이를 루트를 씌운 것이 표준편차이다. 

댓글