반응형

ml 5

DBSCAN에서 fit vs fit_predict

DBSCAN에서 fit과 fit_predict는 모두 클러스터링의 역할을 할 수 있다. 그러나 두 메서드에는 미묘한 차이가 있다.  1. fit 메서드 • fit은 모델을 데이터에 맞게 학습시킨다. • DBSCAN에서는 입력 데이터를 기반으로 밀도 기반 클러스터링을 수행하고, 각 데이터 포인트의 클러스터 레이블을 내부 속성으로 저장한다. 결과: • db.labels_: 클러스터 레이블이 저장된 속성. • 각 데이터 포인트가 속한 클러스터 번호를 나타냄. • -1은 이상치(outlier)를 의미.  2. fit_predict 메서드 • fit_predict는 **학습(fit)**과 동시에 클러스터 레이블을 반환한다. • 내부적으로 fit을 호출한 뒤, labels_ 속성을 반환하는 간편한 메서드. 결과: ..

AI 2024.11.21

머신러닝 Workflow와 Pipeline의 차이

머신러닝 워크플로우(workflow)와 파이프라인(pipeline)은 관련이 깊지만 완전히 동일한 의미로 쓰이지는 않는다. 두 용어는 맥락에 따라 다르게 사용되며, 아래에서 차이와 관계를 설명하겠다.  1. 머신러닝 워크플로우 (Workflow) • 의미: 머신러닝 프로젝트를 진행할 때 필요한 전반적인 과정이나 단계들을 나타낸다.  • 범위: 데이터 수집에서 모델 배포까지 모든 단계를 포함한다.  • 단계 예시: 1. 데이터 수집 및 정제 2. 데이터 탐색 및 분석 3. 특성 엔지니어링 4. 모델 선택 및 학습 5. 하이퍼파라미터 튜닝 6. 모델 평가 및 검증 7. 모델 배포 및 모니터링  • 특징: 워크플로우는 전체 과정에 대한 상위 개념으로, 각 단계를 어떻게 연결하고 수행할지를 정의한다.  2. 파..

AI 2024.11.19

RandomForest에서 ScandardScaler는 의미가 크게 없다.

StandardScaler를 사용했음에도 불구하고 RandomForest 모델의 정확도가 변화하지 않는 이유는 랜덤 포레스트(Random Forest) 모델의 특성과 관련이 있습니다. 1. 랜덤 포레스트는 스케일링에 민감하지 않음랜덤 포레스트는 결정 트리(decision tree)의 앙상블(ensemble) 모델입니다. 결정 트리는 데이터를 분할할 때 특정 피처의 값 대신 값의 순서와 조건(예: “피처 A가 값 X보다 크거나 작은가?”)만 고려합니다. 따라서: • 데이터의 스케일(크기나 단위)은 중요하지 않습니다. • StandardScaler가 데이터를 정규화(normalization)하여 값의 분포를 바꾸더라도, 결정 트리와 랜덤 포레스트의 작동 방식에는 영향을 미치지 않습니다. 2. 스케일링이 영향..

AI 2024.11.17

StandardScaler(z-score 정규화)와 Log Transformation(로그 변환) 사이에서 정규분포화의 관계

StandardScaler와 로그 변환은 모두 데이터의 분포를 변화시킬 수 있지만, 정규분포화 시킨다는 목적에서는 차이가 있습니다.  1.  StandardScaler를 통한 Normalization(Z-score): • 목적: StandardScaler는 데이터를 평균 0, 표준편차 1로 변환하는 데 중점을 둡니다. 각 특성의 값에서 평균을 빼고 표준편차로 나누어 평균을 중심으로 값들이 표준화되도록 하는 것이 목표입니다.  • 정규분포화와의 차이: StandardScaler는 데이터의 분포 모양을 정규분포로 바꾸려는 목적은 아닙니다. 데이터가 원래 정규분포에 가까울 때, StandardScaler로 변환된 결과는 정규분포와 비슷하게 됩니다. 하지만 정규분포가 아닌 경우 StandardScaler 적용 ..

AI 2024.11.13

우도(Likelihood)란 무엇인가 +로그 우드(Log-Likelihood)

우도(likelihood)는 주어진 데이터가 특정한 모델을 따를 가능성, 즉 “이 모델(또는 파라미터)이 주어진 데이터를 얼마나 잘 설명하는가”를 측정하는 개념입니다. 예를 들어 로지스틱 회귀 문제를 통해 쉽게 설명해 보겠습니다. 예시: 로지스틱 회귀 문제에서의 우도 로지스틱 회귀는 특정 사건이 발생할 확률을 예측하는 모델입니다. 예를 들어, 어떤 학생이 시험에 합격할지 여부를 예측한다고 가정해 봅시다. 이 예측은 학생의 공부 시간에 따라 달라질 수 있습니다. 우도의 의미  1. 모델이 예측한 확률: 로지스틱 회귀 모델은 공부 시간이 x일 때 합격할 확률을 P(y=1 | x)로 예측합니다. 이때 y=1은 합격을 의미하고, x는 공부 시간입니다. 2. 실제 결과와 비교: 예를 들어, 실제로 한 학생이 5시..

AI 2024.11.06
반응형