반응형

randomforest 2

RandomForest에서 ScandardScaler는 의미가 크게 없다.

StandardScaler를 사용했음에도 불구하고 RandomForest 모델의 정확도가 변화하지 않는 이유는 랜덤 포레스트(Random Forest) 모델의 특성과 관련이 있습니다. 1. 랜덤 포레스트는 스케일링에 민감하지 않음랜덤 포레스트는 결정 트리(decision tree)의 앙상블(ensemble) 모델입니다. 결정 트리는 데이터를 분할할 때 특정 피처의 값 대신 값의 순서와 조건(예: “피처 A가 값 X보다 크거나 작은가?”)만 고려합니다. 따라서: • 데이터의 스케일(크기나 단위)은 중요하지 않습니다. • StandardScaler가 데이터를 정규화(normalization)하여 값의 분포를 바꾸더라도, 결정 트리와 랜덤 포레스트의 작동 방식에는 영향을 미치지 않습니다. 2. 스케일링이 영향..

AI 2024.11.17

[AI] Kaggle 타이타닉 문제에서 NN이 Random Forest보다 안 좋을까?

Kaggle에서 Getting Started로 주어지는 모델이 Random Forest이다. 그리고 보다시피,  그 정확도는 약 77%이다. 요즘 나는 나만의 NN을 구현하여 저 랜덤포레스트의 정확도를 이기고자 고군분투 중이다.그리고 결국 오늘로 하여금, 4-Inputs 4-Layer NN with Adam으로 아주 간발의 차로 패배의 맛을 다시 한 번 보았다. 정확도가 상승한 것도 뿌듯하지만, 어제까지는 Parameter부터 뉴런들까지 수작업으로 구현한 것에 비해 오늘은 Functional API로 훨씬 쉽고 빠르게 구현해봤고 Tensorflow에 익숙해지는 것에 뿌듯한 것이 크다. 그렇지만, 소수점자릿수로 랜덤포레스트한테 패배한게 너무 씁슬하다. 그러다가 갑자기 이런 생각이 떠올랐다. 앙상블 기법인 ..

AI 2024.07.11
반응형