Python/Machine Learning13 [TIL] 데이터 전처리 인코딩, 스케일링 ✨ 머신러닝 데이터 전처리: 핵심 개념 정리 및 실전 가이드 🚀머신러닝 모델의 성능을 극대화하기 위해서는 데이터 전처리 과정이 필수적입니다. 🛠️ 이 과정은 모델 학습에 적합한 형태로 데이터를 변환하고, 데이터 품질을 향상시켜 더 나은 예측 결과를 얻도록 돕습니다. 이번 글에서는 머신러닝 데이터 전처리의 핵심 개념인 인코딩과 스케일링을 중심으로 자세히 알아보겠습니다. 🤔1. 왜 데이터 전처리가 필요할까요? 🤔머신러닝 모델은 우리가 제공하는 데이터를 기반으로 학습합니다. 하지만 현실의 데이터는 종종 불완전하거나, 모델이 바로 이해하기 어려운 형태로 존재합니다. 이러한 문제를 해결하고 모델의 성능을 극대화하기 위해 데이터 전처리 과정이 필요합니다. 크게 두 가지 주요 전처리 기법이 있습니다:인코딩(E.. 2024. 12. 23. 탐색적 데이터 분석(EDA) 탐색적 데이터 분석(EDA) 개요탐색적 데이터 분석(EDA)은 데이터를 이해하고 모델링 이전에 데이터를 정제하기 위한 필수 과정입니다.EDA를 통해 데이터의 분포, 이상치, 결측치, 상관관계 등을 파악하여 데이터 전처리 및 모델 설계의 방향성을 결정할 수 있습니다.1. 데이터 구조와 개요 확인EDA의 첫 번째 단계는 데이터셋의 전반적인 구조를 파악하는 것입니다.데이터 크기 확인: 데이터셋의 행(row)과 열(column) 개수를 파악하여 전체적인 데이터 구조를 이해.print(data.shape) # 행(row)과 열(column) 개수데이터 타입 확인: 각 열의 데이터 유형(수치형, 범주형, 날짜 등)을 파악.print(data.info()) # 데이터 타입 및 결측치 정보샘플 데이터 확인: 데이터.. 2024. 12. 19. [TIL] 241219 머신러닝 워크플로우 정리 머신러닝 프로젝트 워크플로우 정리머신러닝 프로젝트에서 데이터 전처리부터 모델 평가까지의 과정을 체계적으로 정리한 가이드입니다. 각 단계는 데이터의 특성과 문제 상황에 따라 유동적으로 적용할 수 있습니다.1. 데이터 불러오기 (Loading Data)데이터 파일(csv, json 등)을 불러오고, 기본적인 구조와 정보를 확인합니다.import pandas as pd# 데이터 불러오기data = pd.read_csv('data.csv')# 데이터 기본 정보 확인print(data.info())print(data.head())2. 탐색적 데이터 분석 (EDA)데이터의 전반적인 특성을 이해하고, 결측치와 이상치 등 데이터를 정리할 방향을 결정합니다.(1) 데이터의 기초 통계량 확인# 데이터 분포 확인print(.. 2024. 12. 19. 챕터2 주택가격예측 과제설명 [참고링크] https://www.kaggle.com/code/prasadperera/the-boston-housing-dataset1. CRIM: 동네의 범죄율 (숫자가 높으면 범죄가 많음) 2. ZN: 큰 땅(6956㎡ 이상)이 얼마나 많은지 (비율) 3. INDUS: 공장이나 회사 같은 상업 지역이 얼마나 많은지 (비율) 4. CHAS: 집이 찰스강 근처에 있는지 (1: 강 근처, 0: 강에서 멀리 있음) 5. NOX: 공기 오염 정도 (숫자가 높으면 오염이 심함) 6. RM: 집에 방이 몇 개나 되는지 (평균) 7. AGE: 오래된 집(1940년 이전 건축)이 얼마나 많은지 (비율) 8. DIS: 주요 직장까지 얼마나 가까운지 (숫자가 작을수록 가까움) 9. RAD: 고속도로 접근성 (숫자가 높을.. 2024. 12. 18. [머신러닝] 지도학습 : 회귀모델 머신러닝 모델과 지도 학습머신러닝에서 지도 학습은 정답이 있는 데이터를 통해 예측하는 방식입니다. 주로 두 가지 모델을 사용합니다:회귀 모델: 연속적인 값을 예측합니다. 예를 들어, 사람의 키, 가격 등을 예측할 때 사용합니다.분류 모델: 데이터를 여러 범주로 분류합니다. 예를 들어, 개와 고양이 또는 사과와 오렌지를 구분하는 문제를 다룹니다.이번 글에서는 선형 회귀, 다항 회귀, 리지 회귀, 라소 회귀에 대해 간단히 다뤄보겠습니다.선형 회귀 모델의 기본 개념선형 회귀 모델에서 중요한 두 가지 요소는 종속 변수와 독립 변수입니다.종속 변수: 예측하려는 목표 변수.독립 변수: 예측에 사용되는 정보.선형 관계는 두 변수 간에 직선으로 표현될 수 있는 관계를 의미합니다. 예를 들어, 나이만을 이용해 키를 예측.. 2024. 12. 16. 데이터 전처리 개념 데이터 전처리의 중요성 및 필수 기법데이터 전처리는 머신러닝 및 데이터 분석에서 가장 중요한 과정 중 하나입니다. 원시 데이터는 불완전하거나 노이즈가 많고, 형식이 일관되지 않아 바로 모델링에 사용할 수 없습니다. 전처리는 이러한 데이터를 정리하고, 머신러닝 모델이 이해할 수 있는 형태로 변환하여 성능을 향상시킵니다. 이 과정을 통해 데이터 품질이 향상되면, 머신러닝 모델이 올바르게 학습되어 신뢰성 높은 분석 결과를 도출할 수 있습니다.데이터 전처리 기법은 결측치 처리, 이상치 처리, 중복 데이터 제거, 데이터 타입 변환, 인코딩, 데이터 정규화 등 여러 방법을 포함합니다. 예를 들어, 데이터에 None 값이 포함되면 이는 빈 값이 되어 모델 학습에 방해가 됩니다.1. 이상치 및 중복 데이터 처리이상치 .. 2024. 12. 15. 이전 1 2 3 다음