지도학습 – 1. 선형회귀 다중선형회귀 최소제곱법




선형회귀
지도학습 알고리즘 1

오늘은 지도학습 알고리즘 첫 번째 시간입니다. 통계학과 전공 과목 중에서 제일 중요하고 가장 먼저 접하게 되는 선형회귀에 대해서 알아보는 시간을 가져보도록 하겠습니다.

목차

 

선형회귀란?

선형회귀(Linear Regression)는 지도학습 알고리즘 중 가장 기본적이고 널리 사용되는 알고리즘 중 하나이며, 입력 변수와 출력 변수 사이의 선형 관계를 모델링하는 데 사용됩니다. 이 알고리즘은 연속적인 값을 예측하는 문제에 적합하며, 예측하려는 값이 실수인 경우에 주로 사용됩니다.

잠깐! 입력 변수와 출력 변수가 뭔지 모르시겠다고요? 그래서 쉽게 설명해드리겠습니다. 입력 변수는 우리가 중,고등학교 때 배웠던 보통 x에 해당하는 값으로 ‘독립 변수’ 혹은 ‘설명 변수’ 라고도 합니다. 출력 변수는 y에 해당하는 값으로 ‘종속 변수’ 혹은 ‘반응 변수’ 라고 부르기도 한답니다. 이러한 입력 변수와 반응 변수에 해당하는 데이터들을 통해 각 입력 변수에 대한 가중치와 편향을 학습하여 선형 방정식을 구성합니다. 이 모델의 목표는 주어진 훈련 데이터로부터 가장 잘 맞는 직선(또는 초평면)을 찾아내는 것입니다. 회귀식은 아래와 같이 표현합니다.

Y = bo + b1X1 + b2X2 + … + bkXk

위의 회귀식은 학습 단계에서는 입력 변수와 실제 출력 변수 사이의 차이인 잔차(residual)를 최소화하기 위해 최적의 가중치와 편향을 조정합니다. 주어진 데이터에 대해 회귀 계수(coefficient)를 추정하고, 이를 기반으로 새로운 입력 값에 대한 출력 값을 예측합니다.

가장 일반적으로 사용되는 모델은 단순선형회귀(Simple Linear Regression)와 다중선형회귀(Multiple Linear Regression)입니다. 단순선형회귀는 위에서의 Y = bo + b1X1 + b2X2 + … + bkXk 식에서 k값이 1. 즉, Y = bo + b1X1+오차항의 형태로 나타나는 식이며, 다중선형회귀는 k값이 2 이상일 때를 의미합니다. 통계학을 전공하지 않는 분들이라면 이 이상의 구체적인 내용을 알 필요는 없으실 겁니다. (실제로, 제가 재학 중인 대학교 교수님께서 1학년 때 해주신 말씀을 인용하였습니다.)

 

그렇다면 어떤 상황에서 선형회귀 알고리즘을 사용할 수 있을까요?

이 알고리즘을 사용하기 위해서는 기본적인 4가지의 가정을 전제로 합니다.

선형성: 종속 변수 y와 독립 변수 x 사이에 선형성을 만족해야 한다.

독립성: 독립 변수 x들끼리의 상관관계가 없어야 한다.

이 때, 독립 변수 x는 최소 2개 이상이어야 함으로 독립성은 다중선형회귀에서만 적용되는 가정입니다.

등분산성: 분산이 같아야 합니다. 즉, 잔차의 그래프가 비슷한 형태를 그리고 있어야 합니다.

정규성: 이 때의 정규성은 잔차의 정규성을 만족해야 한다는 것입니다.

 

최소제곱법

번외로, 회귀 분석에서 자주 사용하는 최소제곱법에 대해서 설명해드리겠습니다. 회귀 모형의 성능은 잔차의 제곱을 최소화하는 방식으로 평가됩니다. 잔차의 제곱을 최소화하는 방법으로 가장 널리 알려진 방식은 ‘최소제곱법’입니다. 최소제곱법 공식은 아래와 같습니다.

최소제곱법 공식

이 때, yi은 우리가 데이터에서 관측할 수 있는 y의 관측값을 의미하고, yi에 모자를 씌운 거 같은 (hat이라고 합니다.) yi hat은 모델링을 통해 만들어진 회귀직선에서의 y값을 의미합니다.

 

알고리즘 과정

회귀 분석 알고리즘은 데이터 전처리 과정을 거치게 됩니다. 데이터 전처리란 쉽게 말해 모델링 이전에 더 효과적인 모델을 만들기 위해 데이터를 조작하는 것입니다. 사실을 기반으로 한 데이터를 조작하는 것이 아니라 결측치 처리, 이상치 제거, 변수 변환, 범주형 변수 인코딩 등 모델링에 영향을 미치는 값들에 대해 적절한 조치를 취하는 것이라고 생각하시면 되겠습니다. 데이터 전처리는 모델의 성능을 향상시키고 정확한 예측을 돕는 역할을 합니다.

데이터 전처리 이후, 회귀 분석을 통해 모델링을 했다면 우리가 만든 모델을 평가해봐야겠죠? 선형회귀 모델의 대표적인 평가 지표로는 MSE와 결정 계수가 있습니다. MSE는 평균 제곱 오차 (Mean Squared Error)의 줄임말로 MSE가 0에 가까울수록 만들어진 모델의 예측 정확도가 높다고 할 수 있습니다. 결정 계수 (Coefficient of Determination, R-squared)는 회귀식의 적합도를 재는 척도입니다. 회귀분석에서 종속변수 y의 데이터 yi에 대하여, yi의 총변동합에 대한 변동합의 비율을 나타낸다. 비율이기 때문에 0과 1사이의 값을 가지며 결정 계수가 1에 가까울수록 완성도가 높은 회귀 모형이라고 할 수 있습니다.

 

알고리즘의 특징

정리

종합하면 선형회귀는 입력 변수와 출력 변수 사이의 선형 관계를 모델링하는 간단하면서도 강력한 알고리즘입니다. 독립 변수를 기반으로 종속 변수의 값을 예측하는 데 사용될 수 있습니다. 예를 들어, 주택 가격을 예측하기 위해 주택 크기, 위치, 인구 통계 등의 독립 변수를 사용할 수 있습니다. 이러한 예측 분석은 다양한 분야에서 응용될 수 있으며, 정확한 예측을 통해 의사 결정을 지원합니다. 데이터의 특성과 문제의 복잡성을 고려하여 적절한 회귀 모델을 선택하는 것이 중요합니다.

 

 

함께 보면 좋은 글들

Leave a Comment