비지도학습 -5. 연관 규칙 지지도 신뢰도 향상도



연관 규칙
비지도학습 알고리즘 5

연관 규칙이란?

연관 규칙(association rules)은 비지도학습 중 하나로, 데이터 집합에서 특정 항목들 간의 관계나 규칙을 찾아내는 분석 방법입니다. 대표적인 연관 규칙의 사례로 해외의 한 마트에서 여고생의 임신을 부모보다 먼저 알게 되어 육아 관련 상품에 대한 쿠폰들을 집에 보낸 사건입니다. 이처럼 일련의 항목들 간의 출현 패턴을 통해 항목들 간의 의미 있는 연결성을 발견하고 설명합니다. 이러한 규칙은 “만약 A가 발생한다면 B도 발생할 확률이 높다”와 같은 형태로 표현됩니다.

알고리즘 과정

연관 규칙 알고리즘 수행 과정은 아래와 같습니다.

먼저, 데이터 전처리를 수행합니다.

데이터 전처리를 수행하는 방법으로는 결측치 처리, 이상치 탐지, 데이터 변환 등이 있습니다.

두 번째 과정으로 규칙을 발견합니다.

전처리된 데이터에 적합한 연관 규칙 알고리즘을 선택합니다. 이 때, 규칙 발견의 기준이 되는 지지도와 신뢰도를 설정합니다.

세 번째 과정으로 규칙을 평가합니다.

평가 지표를 계산하여 규칙의 품질을 평가합니다. 알고리즘의 평가 지표에 대해서는 아래에서 더 자세히 다루겠습니다.

평가 지표 계산을 마친 후, 설정한 지표에 기반하여 규칙을 필터링합니다.

마지막으로 규칙을 선택합니다.

평가된 규칙 중에서 최종적으로 사용할 규칙을 선택한 후, 선택된 규칙을 적용하여 의미 있는 결과를 얻습니다.

평가 지표 (지지도, 신뢰도, 향상도)

연관 규칙 알고리즘 수행 과정에서 규칙을 평가하기 위해 지표를 사용합니다. 알고리즘 평가 지표로 쓰이는 대표적인 세 가지 지표인 지지도(Support), 신뢰도(Confidence), 향상도(Lift)에 대해 설명해보겠습니다.

지지도(Support):

규칙이 데이터 집합에서 얼마나 자주 발생하는지를 나타내는 지표입니다. 지지도는 해당 규칙의 전체 등장 횟수를 전체 데이터 집합의 크기로 나눈 값으로 계산됩니다.

지지도 계산 방법

신뢰도(Confidence):

규칙이 실제로 발생했을 때 그 규칙이 옳을 확률을 나타내는 지표입니다. 신뢰도는 규칙이 일어난 횟수를 해당 규칙의 앞 부분이 일어난 횟수로 나눈 값으로 계산됩니다.

신뢰도 계산 방법

향상도(Lift):

규칙이 얼마나 유용한지를 나타내는 지표입니다. 향상도는 규칙의 신뢰도를 해당 규칙의 뒷 부분이 발생한 확률로 나눈 값으로 계산됩니다.

향상도 계산 방법

향상도 값이 1보다 크면 규칙이 유용하다고 판단되며, 1보다 작을 경우에는 규칙이 의미 없다고 판단됩니다.

(평가 지표 사진 출처: 네이버 지식백과)

알고리즘 특징

연관 규칙은 일상적인 상황에서도 많이 활용됩니다. 주로 상품 구매 패턴, 사용자 행동 패턴, 웹 사이트의 방문 패턴 등 다양한 데이터에서 유용한 정보를 도출하는 데 활용됩니다.

예를 들어, 슈퍼마켓에서 고객들의 구매 기록을 분석하여 “맥주를 구매한 사람들은 감자칩도 함께 구매할 확률이 높다”라는 연관 규칙을 찾아낼 수 있습니다. 이를 통해 슈퍼마켓에서는 연관 규칙을 통해 사람들이 어떤 상품들이 함께 구매하는 지를 파악하여 상품 진열 방식을 개선하거나 상품 추천 시스템을 개발할 수 있습니다.

또한, 마케팅 분야에서는 고객의 구매 패턴을 분석하여 타겟 마케팅이나 광고 전략을 개발하는 데 활용됩니다.

실생활에 많이 사용되는 알고리즘이지만, 한계점 역시 뚜렷합니다.

먼저 대규모 데이터에 대한 처리가 어렵습니다. 그리고 평가 지표 등 계산이 복잡하고 실행 시간이 오래 걸린다는 단점이 있습니다. 또한 다양한 변수 및 상호작용을 고려하기에도 어려움이 있습니다. 이에 대한 대안으로 최근에는 딥러닝과 같은 기계 학습 알고리즘을 활용하여 함께 사용되고 있습니다.

연관 규칙은 알고리즘인 Apriori 알고리즘과 FP-Growth 알고리즘을 사용하여 추출할 수 있습니다. 이 알고리즘들은 지지도와 신뢰도를 기반으로 규칙을 생성하고 평가하는 방법을 제공합니다.

연관 규칙은 데이터의 특성과 분석 목적에 따라 다양하게 활용될 수 있으며, 마케팅, 소비자 행동, 상품 추천 시스템, 웹 사용자 분석 등 다양한 응용 분야에서 활용되고 있습니다.

함께 보면 좋은 글들

Leave a Comment