Python/Machine Learning13 [TIL] 모델 평가 (혼돈 행렬) 🎯 모델 평가: 성능을 꼼꼼히 따져보는 시간! 🔎머신러닝 모델을 만들고 학습시키는 것만큼 중요한 것이 바로 모델 평가입니다. 모델이 얼마나 잘 작동하는지, 어떤 부분에서 부족한지 정확히 파악해야만 모델을 개선하고 실제 서비스에 적용할 수 있습니다. 마치 만든 음식을 맛보고 부족한 부분을 보완하는 것과 같죠! 👨🍳 🤔 혼돈 행렬(Confusion Matrix): 예측 결과를 한눈에!모델 평가의 기본은 혼돈 행렬을 이해하는 것입니다. 혼돈 행렬은 모델의 예측 결과와 실제 정답을 비교하여 4가지 경우의 수로 정리한 표입니다. 예를 들어, '악당'을 예측하는 모델을 가정해 보겠습니다. 😈Positive: 모델이 '악당'이라고 예측한 경우Negative: 모델이 '악당 아님'이라고 예측한 경우Tr.. 2025. 1. 3. [TIL] 하이퍼 파라미터 튜닝 ⚙️ 하이퍼파라미터 튜닝: 모델 성능을 조율하는 섬세한 손길 🎨머신러닝 모델을 만들 때, 마치 요리에 양념을 치듯이 🌶️ 모델의 성능을 세밀하게 조절하는 과정이 필요합니다. 이때 사용되는 것이 바로 하이퍼파라미터입니다. 모델 학습 과정에서 자동으로 결정되는 파라미터(가중치, 편향 등) 🤖 과는 달리, 하이퍼파라미터는 모델을 설계하는 사람이 직접 설정해야 합니다. ✍️🌲 의사결정나무 모델을 예시로 살펴보자 🌳의사결정나무 모델에서는 다양한 하이퍼파라미터를 조절하여 모델의 복잡도를 조절할 수 있습니다. 🎛️max_depth: 트리의 최대 깊이를 설정합니다. 너무 깊으면 모델이 학습 데이터에 과적합될 가능성이 커지고, 🤯 너무 얕으면 학습이 제대로 이루어지지 않을 수 있습니다. 마치 나무의 가지를 .. 2025. 1. 2. 챕터 2 과제정리 2 쇼핑몰 고객 데이터 분석 및 클러스터링 프로젝트 학습 정리이번 쇼핑몰 고객 데이터 분석 및 클러스터링 프로젝트를 진행하면서 제가 학습하고 경험한 내용을 구체적인 코드 기반으로 정리해 보았습니다. 단순한 과정 나열이 아닌, 코드를 작성하면서 얻은 인사이트와 함께 학습 내용을 담았습니다.1. 데이터 전처리 및 탐색pandas를 활용한 데이터 로딩 및 정리: pd.read_csv('Mall_Customers.csv')를 통해 데이터를 로드하고, df.drop()으로 불필요한 컬럼을 제거했습니다. df.info()와 df.describe()로 데이터의 전반적인 정보를 확인하며, 수치형 데이터와 범주형 데이터의 특성을 파악했습니다.df = pd.read_csv('Mall_Customers.csv')df = df... 2024. 12. 31. K-Fold 와 Stratified K-Fold 교차검증 K-Fold 교차 검증 (K-Fold Cross-Validation):간단하게 말해서: "데이터를 여러 묶음으로 나눠서, 돌아가면서 훈련시키고 평가하는 방법" 예시:과자 포장: 100개의 과자가 있다고 생각해 봅시다. 이 과자를 5개씩 20묶음으로 나눕니다.평가:첫 번째 묶음은 맛을 보는 사람(평가)에게 주고, 나머지 19묶음으로 새로운 과자를 만드는 연습을 합니다(훈련).두 번째 묶음을 맛보게 하고, 나머지 19묶음으로 과자를 만드는 연습을 합니다.이런 식으로 5번 반복합니다.결론: 맛을 본 5번의 결과를 평균내서 "과자를 만들고 평가하는 능력"이 어느 정도인지 확인합니다. 쉽게 풀어서:데이터를 나눔: 데이터를 여러 개의 작은 묶음(폴드)으로 나눕니다.돌아가며 학습: 한 묶음씩 돌아가면서 "테스트용.. 2024. 12. 30. 챕터2 과제정리 1 📌 TIL (Today I Learned) - 보스턴 주택 가격 데이터셋 분석 및 모델링 🏠📈 1. 📊 데이터셋 이해 및 탐색데이터셋: 보스턴 주택 가격 데이터셋 🏘️특징:CRIM: 범죄율 🚨ZN: 25,000 평방피트 초과 거주 지역 비율 🏘️INDUS: 비소매 상업 지역 비율 🏭CHAS: 찰스 강 인접 여부 🏞️ (더미 변수)NOX: 질소 산화물 농도 🧪RM: 주택당 평균 방 수 🚪AGE: 1940년 이전 건축된 주택 비율 🕰️DIS: 보스턴 고용 센터까지의 가중 거리 📍RAD: 고속도로 접근성 지수 🛣️TAX: 재산세율 🧾PTRATIO: 학생-교사 비율 🧑🏫B: 흑인 인구 비율 관련 변수 🧑🏿LSTAT: 하위 계층 인구 비율 🧑🤝🧑MEDV: 중간 주택 .. 2024. 12. 28. [TIL] 머신러닝 파이프 라인 개념 🚀 머신러닝 파이프라인 개념 정리 📝오늘은 머신러닝 모델링 과정을 효율적으로 관리하는 데 도움이 되는 파이프라인(Pipeline)에 대해 학습했습니다. 파이프라인은 복잡한 머신러닝 워크플로우를 단순화하고, 코드의 재사용성을 높이는 데 유용한 도구입니다. 초급 개발자의 입장에서 파이프라인의 기본 개념과 활용 방법을 정리해 보겠습니다. 1. 파이프라인이란 무엇인가? 🤔파이프라인은 머신러닝 모델을 개발하는 데 필요한 여러 단계들을 하나의 흐름으로 연결해주는 도구입니다. 데이터 준비, 전처리, 모델 학습, 예측 등 일련의 과정을 미리 정의해두고, 파이프라인을 통해 자동으로 처리할 수 있습니다. Scikit-learn 라이브러리에서는 Pipeline 클래스를 제공하여 파이프라인을 쉽게 구축할 수 있습니다. .. 2024. 12. 24. 이전 1 2 3 다음