EDA 2

데이터 분석의 기초, 데이터 파악하기

데이터가 주어졌을 때, 가장 먼저 해야할 일은 데이터의 전반적인 구조를 파악하는 것이다. 데이터에 어떤 변수들이 있는지, 행과 열의 구성은 어떠한지 등에 대한 정보들을 살펴보고, 어떠한 모델링으로 분석을 진행하고, 그 분석 결과를 토대로 어떠한 인사이트를 도출할 것인지까지 분석 방향을 결정할 수 있다. 이러한 과정을 탐색적 데이터 분석: Exploratory Data Analysis(EDA)라고 한다. 탐색적 데이터 분석(EDA) 데이터 분석 프로세스의 초기 단계로 데이터를 이해하고 파악하기 위해 수행되는 활동이다. 주로 데이터의 구조/패턴/이상치/변수 간 관계 등을 탐색한다. 이러한 탐색을 통해 데이터에 대해 더 깊이 이해할 수 있으며, 데이터의 품질을 향상시켜 모델의 성능을 높이는데 도움을 준다. E..

[23회 실기] 기계학습 문제 풀이 1편

※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'Python(파이썬)'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 참고: https://www.datamanim.com/dataset/ADPpb/00/23.html 1-1. 데이터 EDA 수행 분석가 입장에서 의미있는 탐색 먼저, 데이터의 형식과 각 변수에 대한 기술통계 값을 확인하였다. 데이터는 총 17,910개의 행으로 이루어져있고, 7개의 변수가 있다. 7개의 변수에서 1개는 날짜 데이터로 date 변환이 필요해 보이고, 종속변수 Occupancy는 0과 1로 이루어진 것으로 factor 변환이 필요해 보인다. 또한 각 변수의 기술통계 값을 확인하였을 때, 수치형 변수는 단위가 다를 뿐더러 분포 역시 다르다는 것을 알 수..