데이터가 주어졌을 때, 가장 먼저 해야할 일은 데이터의 전반적인 구조를 파악하는 것이다.
데이터에 어떤 변수들이 있는지, 행과 열의 구성은 어떠한지 등에 대한 정보들을 살펴보고, 어떠한 모델링으로 분석을 진행하고, 그 분석 결과를 토대로 어떠한 인사이트를 도출할 것인지까지 분석 방향을 결정할 수 있다.
이러한 과정을 탐색적 데이터 분석: Exploratory Data Analysis(EDA)라고 한다.
탐색적 데이터 분석(EDA)
데이터 분석 프로세스의 초기 단계로 데이터를 이해하고 파악하기 위해 수행되는 활동이다.
주로 데이터의 구조/패턴/이상치/변수 간 관계 등을 탐색한다.
이러한 탐색을 통해 데이터에 대해 더 깊이 이해할 수 있으며, 데이터의 품질을 향상시켜 모델의 성능을 높이는데 도움을 준다.
EDA는 주로 다음과 같은 활동을 한다.
1. 데이터 수집 및 이해
- 데이터를 수집하고 각 변수의 의미와 속성 이해
- 데이터가 어디서 왔는지, 어떻게 수집되었는지, 어떤 형식으로 저장되어 있는지 등 파악
2. 데이터 전처리
- 결측치, 이상치, 중복값 등의 문제가 있는지 확인 및 처리
- 필요에 따라 변수의 형식을 조정하거나 정규화 등의 데이터 변환 작업 수행
3. 기술통계 분석
- 데이터의 주요 통계적 특성 파악
- 변수의 분포, 중심 경향성, 퍼짐 정도 등을 확인하여 데이터의 전반적인 특성 이해
4. 시각화
- 데이터를 시각화하여 그래프나 차트로 표현하여 데이터의 특성을 직관적으로 파악
- 히스토그램, 상자 그림, 산점도, 막대 그래프 등 시각화 기법을 활용하여 변수 간의 관계나 패턴 파악
5. 변수 간의 관계 분석
- 변수들 간의 상관관계나 연관성 조사
- 상관 행렬, 히트맵, 산점도 행렬 등을 활용하여 변수들 간의 상관관계 시각화 및 분석
'분석가 Step 1. 데이터 분석 > Python' 카테고리의 다른 글
Geocoder API 2.0 레퍼런스를 이용하여 좌표계 추출 (0) | 2023.07.26 |
---|---|
지오코딩(Geocoding), 역지오코딩(Geocoding-reverse) 편 (0) | 2023.07.07 |
데이터 파일 인코딩 확인하기 (0) | 2023.06.22 |
특정 폴더 안의 특정 파일(목록) 반복해서 가져오기 (0) | 2023.03.16 |
특정 폴더 안의 파일(목록) 가져오기 (0) | 2023.03.16 |