본문 바로가기

통계, AI19

t-test에 대한 모든 것 이 글에서는 t-test이란 무엇인지, 언제 사용되는지, 그리고 이와 관련된 중요한 통계 개념들을 예시와 함께 아주 쉽게 설명해보겠습니다.1. t-test란?t-검정은 두 그룹의 평균이 서로 다른지 비교하는 통계적인 방법입니다. 예를들어 남녀 간의 연봉차이, 지역별 소득 차이 등을 비교할 때 쓰이죠. 두 그룹의 평균은 그냥 평균을 계산해서 비교하면 끝나는 작업인데, 왜 t-test라는 통계적 기법이 필요한 걸까요? 그 이유는 두 그룹으로 나눈 데이터가 편향된 데이터일 수 있기 때문입니다. 예를 들어 남녀 간의 연봉차이를 비교할 건데, 수집한 연봉 데이터의 80%가 부산 사람들이었다고 하면, 편향된 데이터라고 할 수 있죠. 대한민국 전체 5,000만명의 데이터는 '모집단'이라고 하고, 그 중 일부 데이터를.. 2025. 4. 6.
A/B 테스트를 통계적으로 신뢰할 수 있게 하기 위한 사전 작업들 A/B 테스트를 진행할 때, A그룹과 B그룹의 조건이 동일하지 않다면 실험 결과를 신뢰할 수 있을까? 또한, 실험 대상의 양이 너무 작다면? 실험 결과의 차이가 미미하다면? 이 글에서는 A/B테스트 결과를 신뢰할 수 있는 방법에 대해서 알아볼 것이다.  왜 A/B테스트를 하는가? 현실 세계에서 한정된 자원으로 새로운 아이템의 효과를 검증하기 위한 가장 좋은 방법이기 때문이다. 사례) 오바마 대선 캠프가족의 모습이 담긴 이미지와 LEARN MORE 버튼은 기존 안 대비 각각 18.6%, 13.1%의 가입률 증가를 보였으며 두 아이템을 조합한 페이지의 경우 40.6% 가입률 증가 여기 A/B 테스트의 더 다양한 성공 사례가 있다.  UX/UI 디자이너가 새로운 앱 디자인을 만들었다고 가정해보자. 이 UI를 .. 2024. 4. 14.
5가지 사례를 통해 알아보는 A/B테스트의 필요성 해당 글에서는 검색엔진 빙(Bing), 넷플릭스, 아마존, Booking.com, 오바마 대선이 A/B테스트를 통해 극적인 성장과 성공을 이룬 사례에 대해서 알아보겠습니다.  목차검색엔진 빙(Bing)넷플릭스아마존Booking.com오바마 대선 1. 검색엔진 빙(Bing)2012년 검색엔진 빙(Bing)과 관련된 작업을 하던 마이크로소프트의 한 직원이 검색엔진에서 광고 헤드라인을 보여주는 방식을 변경하자는 아이디어를 냈다. 아이디어를 실행하는데 기술적으로 어려운 작업은 아니었지만 수백 건의 아이디어 중 하나였기 때문에 우선순위에 밀려 6개월 동안 진행되지 않았다. 마침내 이 아이디어는 진행되었고 프로그램 코드를 짜는데 크게 어렵지 않고 비용도 적게 든다는 사실을 알아내고 한 엔지니어가 효과를 평가하기 위.. 2024. 3. 8.
A/B 테스트 설계 및 방법과 유의 사항 with 실무예제 목차1. A/B 테스트 설계 방법2. A/B 테스트 설계 시 유의사항3. A/B 테스트 결과를 분석하는 방법    3-1. A/B테스트 계산기    3-2. 테스트 비용과 효과 크기 💡 A/B 테스트란?두 개의 변형 A와 B를 사용하는 종합 대조 실험. 두 가지 서로 다른 옵션에 대한 사용자의 반응을 측정함으로써 어떤 옵션이 더 효과적인지를 검증하는 과정이다.  1. A/B 테스트 설계 방법가설 : A/B테스트의 출발점은 가설. 가설은 독립변수와 종속 변수가 무엇인지를 정의하고 종속 변수의 목표 수준을 정하는 형태로 이뤄진다.실험 집단/통제 집단 : 전체 모수 중 실험 조건에 할당되는 사용자들을 어떤 기준으로 구분하고, 어떤 비율로 할당할 것인지 정의해야 한다. 가장 중요한 정차는 통제 변수 관리와 엄.. 2023. 8. 14.
기초 통계 용어 정리 목차1. 확률, 표본 공간, 실험, 사건2. 확률 변수3. 복원 샘플링과 비복원 샘플링4. 수치형 변수, 범주형 변수5. 도수, 평균, 기댓값, 중앙값6. 분산, 표준편차1. 확률, 표본 공간, 실험, 사건표본공간 : 일어날 수 있는 모든 경우의 수(ex. 주사위의 모든 눈 1,2,3,4,5,6)실험 : 결과를 예측할 수 없는 행동을 취하는 것 (ex. 주사위를 굴리는 행위)사건 : 실험에 의해 벌어진 일이나 그 값 (ex. 굴렸더니 주사위의 눈이 6이 나옴)확률 : 어떤 일이 일어날 가능성(ex. 주사위 굴렸을 때 1이 나올 확률은 1/6) P(A)=AS P(A) : Probability = A라는 사건이 발생할 확률A : A 사건이 일어날 경우의 수S : 표본 공간 2... 2023. 8. 9.
[통계학]모집단과 표본, 기술 통계학과 추론 통계학, 가설 검정(귀무 가설, 대립 가설) 목차1. 통계학이란?(feat. 모집단, 표본, 추론)2. 기술 통계학과 추론 통계학3. 가설 검정, 귀무 가설, 대립 가설 1. 통계학이란?(feat. 모집단, 표본, 추론)통계학을 한마디로 요약하면, 일부분을 통해 전체를 파악하려는 모든 노력이라고 할 수 있다. 다음은 통계학에 대한 정의이다.  산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야연구 목적에 필요한 자료 및 정보를 최적한 방법으로 수집하고, 수집한 자료를 과학적이고 논리적인 이론에 의하여 정리 분석하는 학문통계학은 관심 또는 연구의 대상이 되는 모집단(population)으로 부터 자료를 수집, 정리, 요약을 하고 표본(수집한 자료, sample) 정보로부터 자료를 추출했던 대상.. 2023. 8. 7.
데이터 분석의 목적 및 프로세스 목차1. 데이터 분석의 목적2. 데이터 분석 프로세스3. 데이터 유형 데이터 분석의 목적위키백과에서는 데이터 분석을 다음과 같이 정의하고 있다.  데이터 분석(Data analysis)은 유용한 정보를 발굴하고 결론 내용을 알려며 의사결정을 지원하는 것을 목표로 데이터를 정리, 변환, 모델링하는 과정이다. 데이터 분석은 여러 면과 접근 방식이 있고, 다양한 이름의 다양한 기술을 아우르며 각기 다른 비즈니스, 과학, 사회과학 분야에 사용된다.  오늘날 비즈니스 부문에서 데이터 분석은 의사 결정을 더 과학적으로 만들어주고 비즈니스를 더 효율적으로 운영할 수 있도록 도와주는 역할을 한다.  이를 세분화하여 나열하면 다음과 같다.  다양한 데이터 -> 분석 기법 활용 -> 문제 발견 -> 원인 파악 -> 해결 .. 2023. 8. 4.
Perceptron, Multi-Layer Perceptron, Activation function 정리 목차1. Perceptron2. Multi-Layer Perceptron3. Activation function1. PerceptronPerceptron은 뇌의 뉴런을 본떠서 만든 최초로 제안된 Neural Model이다. 뉴런은 수상돌기(dendrites)에서 신호를 받아서 신경세포체에서 정보처리를 한다. 신경세포체에서 들어온 자극에 대해서 반응할지 판단을 한 후에 역치(threshold) 이상의 자극이 들어오면 신호를 축삭돌기(Axon)라는 곳으로 넘긴다. 그리고 축삭의 종말에 있는 시냅스를 통해서 다음 뉴런으로 정보를 전달한다.  비슷한 신호가 반복해서 들어오면, 신호가 들어간 시냅스가 강화된다. 그 weight를 입력된 정보에 얹는다. weights는 AI모델에서는 parameters이고, 결국 .. 2023. 7. 7.
Output function, Loss function(feat. 소프트맥스, 크로스 엔트로피) 목차1. Output function    1-1. Softmax function    1-2. Linear function2. Loss function    2-1. cross-entropy    2-2. MSE 1. Output functionOutput function으로 사용하는 함수는 크게 2가지이다.Softmax fucntionlinear function 1-1. Softmax function여기서 Softmax 함수는 Multi-class classification 문제를 풀기 위해 사용된다. 예를 들어 아래와 같은 문제가 있다고 해보자.  여기서 cat, horse, dog가 담긴 32 x 32개의 픽셀 데이터를 일자로 펼쳐서 1024개의 픽셀을 feature로 사용하여 Nerual Net.. 2023. 7. 5.
ROC curve, AUC 개념 및 sklearn 코드 목차1. ROC curve, AUC2. titanic 실습(sklearn 코드)지난 시간에 분류문제의 성능평가 지표인 Accuarcy, Recall, Precision, F1 score에 대해서 알아보았다. 오늘은 ROC curve에 대해서 알아보겠다. (참고 : 분류문제 성능평가 지표: Accuracy, Recall, Precision, F1 score (+titanic 실습)) 1. ROC curve, AUCROC(Receiver Operating Characteristics) curve란, 종속변수값을 무엇으로 예측할 것인지의 기준이 되는 확률(threshold probability) 값에 따른 TPR과 FPR값들의 집합을 의미한다. 그리고 AUC(Area Under the Curve)는 ROC c.. 2023. 6. 15.
분류문제 성능평가 지표: Accuracy, Recall, Precision, F1 score (+titanic 실습) 목차:1. 분류문제 성능평가 지표   1-1. Confusion matrix    1-2. Accuracy(정확도)    1-3. Recall(재현율)    1-4. Precision(정밀도)     1-5. F1 score2. 데이터 불균형 문제    2-1. Over sampling    2-2. Under sampling3. 케글 titanic 실습 분류문제의 성능평가 지표에는 Accuracy, recall, precision, F1 등이 있다. 이는 모델 평가단계에서 사용하는 성능평가 지표이다. 이번시간에는 가장 대표적인 평가지표인 4가지에 대해서 먼저 알아보겠다.  위에서 언급한 4개의 분류문제 성능평가지표는 계산을 위해서 confusion matrix를 사용해야 한다. 이는 종속변수의 실제값과.. 2023. 6. 10.
[로지스틱 회귀] Solver 종류와 장단점 목차Solver란?1. newton-cg: 뉴튼랩슨2. lbfgs3. liblinear4. sag5. saga Solver란?Solver는 LogisticRegression 모델에서 사용하는 하이퍼 파리미터 중 하나로, 비용함수의 최솟값을 어떠한 방법으로 찾을 것인지를 지정하는 역할을 한다. 방법에 따라 학습 성능이 달라지기 때문에 solver를 잘 선택하는 것도 중요하다. 종류에는 newton-cg, lbfgs, liblinear, sag, saga로 총 5가지가 있다. 이중에 newton-cg, lbfgs은 뉴튼 랩슨 방법을 활용하고, 나머지 3개는 경사하강법을 활용한다. 뉴튼 랩슨방법보다는 경사하강법이 학습속도가 더 빠르기 때문에 2차 도함수까지 구해야하는 뉴튼 랩슨 방법은 최근에는 잘 사용하지 않.. 2023. 6. 7.