우도(likelihood)는 주어진 데이터가 특정한 모델을 따를 가능성, 즉 “이 모델(또는 파라미터)이 주어진 데이터를 얼마나 잘 설명하는가”를 측정하는 개념입니다. 예를 들어 로지스틱 회귀 문제를 통해 쉽게 설명해 보겠습니다.
예시: 로지스틱 회귀 문제에서의 우도
로지스틱 회귀는 특정 사건이 발생할 확률을 예측하는 모델입니다. 예를 들어, 어떤 학생이 시험에 합격할지 여부를 예측한다고 가정해 봅시다. 이 예측은 학생의 공부 시간에 따라 달라질 수 있습니다.
우도의 의미
1. 모델이 예측한 확률: 로지스틱 회귀 모델은 공부 시간이 x일 때 합격할 확률을 P(y=1 | x)로 예측합니다. 이때 y=1은 합격을 의미하고, x는 공부 시간입니다.
2. 실제 결과와 비교: 예를 들어, 실제로 한 학생이 5시간 공부해서 시험에 합격했다면, 로지스틱 회귀 모델은 이 합격한 결과에 대해 특정 확률을 예측했을 겁니다. 만약 모델이 이 학생의 합격 확률을 0.8로 예측했다면, 우도는 0.8이 됩니다. 이 경우, “모델이 실제 데이터를 얼마나 잘 설명하는가?“를 0.8이라는 수치로 나타낸 것입니다.
3. 모든 데이터에 대해 우도를 계산: 이렇게 각각의 데이터 포인트(학생)의 예측 확률을 모두 곱하면, 전체 데이터가 모델을 따를 가능성, 즉 우도가 됩니다. 예를 들어 여러 학생에 대해 모델이 예측한 확률들을 모두 곱한 값이 우도가 됩니다.
로그 우도(log-likelihood)
우도를 구할 때, 여러 확률을 곱하면 매우 작은 숫자가 되어 계산이 어려워집니다. 그래서 로그(log)를 취한 로그 우도(log-likelihood)를 사용합니다.
• 곱셈을 더하기로 변환: 로그를 취하면 곱셈을 더하기로 바꿀 수 있어서 계산이 훨씬 간편해집니다.
• 최적화가 쉬워짐: 로그 우도를 최대화하는 것이 곧 주어진 데이터에 대해 모델을 최적화하는 것을 의미합니다. 이 과정은 모델이 주어진 데이터를 가장 잘 설명하도록 하는 파라미터를 찾는 과정입니다.
머신러닝에서 우도의 역할
로지스틱 회귀와 같은 분류 모델을 학습할 때, 우도는 “이 모델이 주어진 데이터를 얼마나 잘 설명하는가”를 나타내는 지표로 작동합니다. 모델 학습 과정에서는 이 우도를 최대화하는 방향으로 파라미터를 조정하여, 주어진 데이터를 가장 잘 설명할 수 있도록 만듭니다.
'AI' 카테고리의 다른 글
회귀 모델 평가에서 F-통계량(F-Statistic)의 p-값(유의확률)과 귀무가설 (0) | 2024.11.11 |
---|---|
statsmodels 라이브러리의 Logit vs sklearn의 LogisticRegression (2) | 2024.11.06 |
[Gemma2 FineTuning] 우주 탐험의 시작, Your Gateway to the Cosmos (5) | 2024.10.01 |
LLM API에서 스트리밍(streaming)과 비스트리밍(Non-Streaming, Blocking)의 차이 (0) | 2024.08.25 |
[ AI ] Hugging Face에서 Model을 가져올 때 양자화를 하는 이유 (0) | 2024.07.26 |