지도학습 – 2. 로지스틱 회귀 최대우도추정(MLE)



로지스틱 회귀
지도학습 알고리즘 2

안녕하세요 ! 지도학습 알고리즘 두 번째 시간입니다. 오늘은 로지스틱 회귀에 대해서 알아보도록 하겠습니다.

 

로지스틱 회귀란?

로지스틱 회귀(Logistic Regression)는 지도학습의 분류(Classification) 문제에 사용되는 알고리즘입니다.

이 알고리즘은 입력 변수와 출력 변수 사이의 관계를 모델링하는 데 사용되며, 이진 분류 문제에서 가장 널리 활용됩니다.

 

로지스틱 회귀의 특징

로지스틱 회귀는 주어진 입력 데이터를 기반으로 해당 데이터가 어떤 클래스에 속하는지 예측하는 작업을 수행합니다. 예를 들어, 이메일이 스팸인지 아닌지, 환자가 양성인지 음성인지 등 이분법적으로 나눌 수 있는 데이터들에 대한 작업을 수행합니다. 로지스틱 회귀의 학습은 최대우도추정(Maximum Likelihood Estimation)을 사용하여 이루어집니다. 최대우도추정의 개념에 대해서는 아래에서 자세히 다루도록 하겠습니다.

로지스틱 함수는 입력의 선형 조합을 0과 1 사이의 값으로 제한하여 이를 확률로 해석할 수 있게 합니다. 이 모델은 입력 변수에 대한 가중치와 편향을 학습하여 선형 방정식을 구성합니다. 그러나 선형회귀와 달리 로지스틱 회귀는 출력 값을 확률로 해석할 수 있도록 함수를 적용합니다. 로지스틱 회귀 모형의 함수 식은 아래와 같습니다.

이 때, 식(1)에서 b0는 모형의 절편이고 bi (i = 0, 1, 2, …, n)는 로지스틱 회귀 모델의 기울기 계수를 나타내고 xi (i = 1, 2, …, n)는 독립변수입니다. 또한 식 (2)에서 P는 사건이 발생할 확률이고, e는 자연 로그입니다. 즉, 이러한 여러 개의 독립변수 (xi)를 위의 식 (1)과 식 (2)에 적용하여 어떤 사건이 발생할 확률 (P)을 구하는 것입니다.

로지스틱 회귀 공식을 적용하면 이러한 확률 뿐 아니라 로지스틱 회귀공식을 사용하여 로지스틱 다중 회귀 계수 (B), 기울기 계수의 표준 오차 (Standard Error), 월 테스트 (Wald Test), 유의 수준 (Significance level) 및 지수화된 기울기 계수 (Exp (B)) 등을 계산할 수 있습니다.

 

최대우도추정(MLE)

최대우도추정이란 쉽게 말해 우도 함수에 대해 log를 씌워준 후, 모수에 대해 편미분을 하여 함수값이 0이 되도록 하는 모수의 값을 찾는 과정입니다.

학습 과정에서는 가중치와 편향을 조정하여 주어진 훈련 데이터에 가장 적합한 모델을 찾습니다. 모델의 성능은 로그 손실(Log Loss) 등의 비용 함수를 최소화하여 평가됩니다.

 

알고리즘 과정

로지스틱 회귀 알고리즘의 과정도 선형 회귀에서의 과정과 유사합니다. 먼저, 모델링에 앞서 데이터 전처리를 해야합니다. 데이터 전처리란 쉽게 말해 모델링 이전에 더 효과적인 모델을 만들기 위해 데이터를 조작하는 것입니다. 사실을 기반으로 한 데이터를 조작하는 것이 아니라 결측치 처리, 이상치 제거, 변수 변환, 범주형 변수 인코딩 등 모델링에 영향을 미치는 값들에 대해 적절한 조치를 취하는 것이라고 생각하시면 되겠습니다. 데이터 전처리는 모델의 성능을 향상시키고 정확한 예측을 돕는 역할을 합니다.

이후, 사용할 변수를 선택하고, 모델을 학습시키는 단계를 거칩니다. 변수 선택은 다음과 같은 절차를 따를 수 있습니다.

상관 관계 분석: 변수들 간의 상관 관계를 분석하여 중복되거나 영향력이 낮은 변수를 제거합니다.

변수 중요도 분석: 변수의 중요도를 평가하여 가장 영향력이 큰 변수를 선택합니다. 모델 학습은 선택된 변수와 목표 변수 사이의 관계를 학습하는 과정입니다. 최적화 알고리즘을 사용하여 모델 파라미터를 조정하고, 손실 함수를 최소화하여 모델을 학습시킵니다.

완성된 회귀 모형에 대한 평가도 빼놓을 수 없겠죠? 로지스틱 회귀 모형의 평가 지표는 아래와 같습니다.

  • 정확도 (Accuracy): 전체 샘플 중 올바르게 분류된 샘플의 비율입니다.
  • 정밀도 (Precision): 양성으로 예측한 샘플 중 실제로 양성인 샘플의 비율입니다.
  • 재현율 (Recall): 실제 양성인 샘플 중 양성으로 예측한 샘플의 비율입니다.
정확도와 정밀도의 차이 (출처: 네이버 블로그)

쉽게 말해, 저 3가지 지표가 모두 높다면 이 모델은 예측 정확도가 높은 모델이라고 할 수 있습니다. 반면, 평가 지표가 낮다면 아래의 방법으로 모델의 성능을 향상시킬 수 있습니다.

  • 특성 공학: 변수들을 변형하거나 새로운 변수를 추가하여 모델의 표현력을 향상시킵니다.
  • 교차 검증: 학습 데이터를 여러 부분으로 나누어 모델을 학습하고 평가하여 일반화 성능을 향상시킵니다.

이러한 단계를 따라 예측력이 높은 모델을 구축하고 성능을 평가하여 분류 문제를 해결할 수 있습니다.

 

알고리즘의 특징

로지스틱 회귀에서는 각 요인에 대한 여러 분석값이 포함됩니다. 이러한 분석값은 다른 지역을 대상으로 하는 유사한 연구에서 사용될 수 있습니다. 이 알고리즘의 장점은 여러 가지가 있습니다. 먼저, 종속 변수와 독립 변수 사이의 관계가 비선형 관계로 식별되기 때문에 정규 분포의 가정이 독립 변수에 적용되지 않습니다. 또한, 명목형, 연속형, 순서형을 비롯한 다양한 독립 변수에 다양한 자료 유형을 사용할 수 있기 때문에 복잡한 현상을 설명할 수 있습니다. 반면 단점도 존재하는데요, 입력 변수들 간의 선형적인 관계를 가정하고 있으며, 비선형 문제에는 적합하지 않을 수 있습니다. 또한 데이터가 불균형하게 분포되어 있는 경우에도 성능이 저하될 수 있습니다.

 

함께 보면 좋은 글들

Leave a Comment