ROC curve, AUC 개념 및 sklearn 코드
목차 1. ROC curve, AUC 2. titanic 실습(sklearn 코드) 지난 시간에 분류문제의 성능평가 지표인 Accuarcy, Recall, Precision, F1 score에 대해서 알아보았다. 오늘은 ROC curve에 대해서 알아보겠다. (참고 : 분류문제 성능평가 지표: Accuracy, Recall, Precision, F1 score (+titanic 실습)) 1. ROC curve, AUC ROC(Receiver Operating Characteristics) curve란, 종속변수값을 무엇으로 예측할 것인지의 기준이 되는 확률(threshold probability) 값에 따른 TPR과 FPR값들의 집합을 의미한다. 그리고 AUC(Area Under the Curve)는 R..
2023. 6. 15.
원-핫 인코딩: pd.get_dummies() vs OneHotEncoder()
목차 1. 원-핫 인코딩(One-Hot Encoding) 2. pd.get_dummies() 3. OneHotEncoder() 모델 학습을 위해서는 문자형태로 되어있는 범주형 데이터를 숫자형으로 바꿔 주어야 한다. 그런데, 문제가 하나 있다. 범주형 데이터를 숫자로 바꾸면 0,1,2,3,4 이런 식일 텐데, 이 숫자가 의미하는 바는 높다, 낮다 하는 수치가 아니라 범주를 나타내기 때문에 이 숫자를 회귀 분석에서 사용할 수 없다. 그러면 어떻게 해야 할까? 각각의 범주에 대한 컬럼을 따로 하나씩 더 만들어주고, 0과 1의 값만 갖도록 해야 한다. 예를 들어 '서울', '부산', '광주'라는 값을 가지는 범주형 데이터라면 서울, 부산, 광주에 대한 컬럼을 모두 하나씩 추가시켜 줄다음, 값이 서울이라면, 서울..
2023. 6. 6.
로지스틱 회귀 모형: 함수 개념 및 코딩 실습
목차 1. 로지스틱 회귀(Logistic Regression) 모형 2. 실습: 로지스틱 회귀 모형 학습 지금까지 지도학습 알고리즘 중에 선형 회귀 모형에 대해서 알아보았다. 학습 데이터와 문제 데이터 준비 단계, 피처 엔지니어링(표준화, Min-max정규화) 단계, 알고리즘 선택(선형회귀, Lasso, Ridge, ElasticNet) 단계, 학습 단계에서 비용함수(MSE)로 파라미터 최적값 찾는 과정, 성능 평가 단계(\(R^2\)), 과적합 문제를 해결하는 규제화(L1, L2 penalty term) 방법까지 알아보았다.(아래 더 보기 참고) 더보기 ML 지도학습: 선형 회귀 모형 관련 내용들 1. 기계학습(ML): 선형회귀 모델 학습 원리, 성능 평가 방법 2. 규제화(Regularization)..
2023. 5. 29.
기계학습(ML): 선형회귀 모델 학습 원리, 성능 평가 방법
목차 1. 기계학습(ML) 종류 2. 학습데이터와 문제 데이터 준비 3. 알고리즘(혹은 모형) 선택 3-1. 선형 회귀 모델 4. 학습 4-1. 파라미터 최적값 도출 4-1-1. 정규방정식 4-1-2. 경사하강법 4-3. 성능 평가 4-2-1. 과적합(Overfitting) 1. 기계학습 종류 기계학습에 종류에는 크게 전통적인 머신러닝과 딥러닝이 있다. 전통적인 머신러닝의 경우엔 보통 정형 데이터(표 형태로 저장되어 있는)를 다룰 때 사용하며, 종류에는 선형회귀, 로지스틱, 결정트리가 있다. 딥러닝은 비정형 데이터를 주로 다루며, 비정형 데이터라고 하면, 이미지, 오디오, 비디오, SNS나 뉴스의 댓글 같은 텍스트들이다. 참고로, 기계학습이 영어로 머신러닝(Machine Learning)이니 다른 것으..
2023. 5. 19.