전체 글 39

[PostgreSQL] 날짜 데이터 다루기

현재 날짜 구하기 select current_date as today; 현재 날짜/시간 구하기 select now() as today; select current_timestamp as today; 하루 전/후 날짜 구하기 select date '2023-07-04' + integer '-1'; select now() + '-1 days'; select date '2023-07-04' + integer '1'; select now() + '1 days'; 일주일 전/후 날짜 구하기 select date '2023-07-04' + integer '-7'; select now() + '-1 week'; select date '2023-07-04' + integer '7'; select now() + '1 w..

데이터 분석의 기초, 데이터 파악하기

데이터가 주어졌을 때, 가장 먼저 해야할 일은 데이터의 전반적인 구조를 파악하는 것이다. 데이터에 어떤 변수들이 있는지, 행과 열의 구성은 어떠한지 등에 대한 정보들을 살펴보고, 어떠한 모델링으로 분석을 진행하고, 그 분석 결과를 토대로 어떠한 인사이트를 도출할 것인지까지 분석 방향을 결정할 수 있다. 이러한 과정을 탐색적 데이터 분석: Exploratory Data Analysis(EDA)라고 한다. 탐색적 데이터 분석(EDA) 데이터 분석 프로세스의 초기 단계로 데이터를 이해하고 파악하기 위해 수행되는 활동이다. 주로 데이터의 구조/패턴/이상치/변수 간 관계 등을 탐색한다. 이러한 탐색을 통해 데이터에 대해 더 깊이 이해할 수 있으며, 데이터의 품질을 향상시켜 모델의 성능을 높이는데 도움을 준다. E..

PostgreSQL 설치, 데이터베이스와 연동하기

PostgreSQL 관계형 데이터베이스 관리 시스템(RDBMS)으로서, 대규모 데이터베이스를 개발 및 관리하는 데 사용 오픈소스 소프트웨어로 세계적으로 널리 사용 A(원자성), C(일관성), I(격리성), D(지속성) 원칙을 준수하는 데이터베이스 시스템으로 데이터의 안전성, 일관성, 동시성 제어 등의 기능 제공 (데이터 손실/손상 방지, 다수 사용자 동시 접근/수정 가능) 다중 사용자 환경에서 대규모 데이터베이스 처리 가능 다양한 운영체제에서 실행 가능 및 여러 프로그래밍 언어와의 연동(통합) 지원) 1. PostgreSQL 홈페이지에서 최신 버전 윈도우 설치파일 다운로드 먼저, https://www.postgresql.org/ 에 접속한 후, 아래 그림 순서대로 PostgreSQL을 설치하면 된다. 주..

데이터 파일 인코딩 확인하기

파이썬으로 데이터를 읽고, 저장할 때 주로 csv, excel, text 등의 파일 형태를 사용한다. 그리고 데이터는 여러 인코딩을 가지고 있는데, 그중에서도 보통 가장 많은 인코딩 유형은 'utf-8', 'euc-kr'이다. 1. UTF-8 (Unicode Transformation Format 8-bit) - 현재 가장 널리 사용되는 문자 인코딩 방식 중 하나이며, 유니코드(Unicode)를 나타내기 위해 설계된 인코딩 방식 *유니코드: 전 세계 대부분의 문자와 기호를 포함하는 국제 표준 문자 집합 - 8비트 기반의 가변 길이 인코딩 방식으로 ASCII 문자(영어 알파벳 및 일부 특수 문자)는 1바이트로 표현하고, 문자의 경우 필요에 따라 2~4바이트까지 표현 - ASCII와 완벽하게 호환되므로, 기..

[23회 실기] 기계학습 문제 풀이 2편

기계학습 문제 풀이 1편: https://danha23.tistory.com/25 [23회 실기] 기계학습 문제 풀이 1편 ※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'Python(파이썬)'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 참고: https://www.datamanim.com/dataset/ADPpb/00/23.html 1-1. 데이터 EDA danha23.tistory.com 2-1. 데이터 불균형 확인 및 판단 근거 작성 데이터의 불균형은 클래스 비율을 살펴봄으로써 판단할 수 있다. 클래스의 데이터 수가 현저히 차이가 나는 경우 데이터 불균형을 의심할 수 있다. 종속변수 'Occupancy'의 데이터 불균형을 확인하였을 때, 0 클래스와 1 클래스는 각 8..

[23회 실기] 기계학습 문제 풀이 1편

※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'Python(파이썬)'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 참고: https://www.datamanim.com/dataset/ADPpb/00/23.html 1-1. 데이터 EDA 수행 분석가 입장에서 의미있는 탐색 먼저, 데이터의 형식과 각 변수에 대한 기술통계 값을 확인하였다. 데이터는 총 17,910개의 행으로 이루어져있고, 7개의 변수가 있다. 7개의 변수에서 1개는 날짜 데이터로 date 변환이 필요해 보이고, 종속변수 Occupancy는 0과 1로 이루어진 것으로 factor 변환이 필요해 보인다. 또한 각 변수의 기술통계 값을 확인하였을 때, 수치형 변수는 단위가 다를 뿐더러 분포 역시 다르다는 것을 알 수..

[22회 실기] 기계학습 문제 풀이

※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'Python(파이썬)'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 참고: https://www.datamanim.com/dataset/ADPpb/00/22.html 1-1. 탐색적 데이터 분석 수행(시각화 포함) import pandas as pd df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/22/data1.csv') display(df.head()) display(df.tail()) # 데이터 형태 확인 df.shape # 통계적 정보 확인 df.describe() # 데이터 정보 확인 df.info() 탐색적 데이터 분석을 수..

[20회 실기] 기계학습 문제 풀이 2편

※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'R 프로그래밍'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 20회 실기 기계학습 문제 풀이 1편 [20회 실기] 기계학습 문제 풀이 1편 ※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'R 프로그래밍'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 문제 복기 참고 사이트 https://www.datamanim.com/dataset/ADPpb/00/20.ht danha23.tistory.com 2-1. 데이터 전처리 각 가구의 15분 간격의 전력량의 합을 구하고, 해당 데이터를 바탕으로 총 5개의 군집으로 군집화 진행 그 후 아래의 그림과 같은 형태로 출력 군집화를 위한 데이터 구성의 이유 설명 보통은..

[20회 실기] 기계학습 문제 풀이 1편

※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'R 프로그래밍'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 문제 복기 참고 사이트 https://www.datamanim.com/dataset/ADPpb/00/20.html ADP 20회 실기 문제 — DataManim 2-1번 데이터 전처리 각 가구의 15분간격의 전력량의 합을 구하고 해당데이터를 바탕으로 총 5개의 군집으로 군집화를 진행한 후 아래의 그림과 같은 형태로 출력하라. 군집화를 위한 데이터 구 www.datamanim.com 1-1. 데이터 확인 및 전처리 데이터 EDA 수행 (결측치 확인 및 처리 방안 논의) 날씨의 온도를 예측하는 것, 종속변수 : actual(최고온도) df

[17회 실기] 기계학습 문제 풀이 2편

※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'R 프로그래밍'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 17회 실기 기계학습 문제 풀이 1편 [17회 실기] 기계학습 문제 풀이 1편 ※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'R 프로그래밍'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 문제 복기 참고한 사이트 ADP 17회 실기 문제 — DataManim 1-4번 danha23.tistory.com 2-1. 마지막 일자 기준, 인구 대비 확진자 비율 높은 상위 5개 국가 구하기 먼저, 데이터의 구조를 확인한 후 날짜 타입을 as.Date() 함수를 이용하여 변환해주었다. 그리고 마지막 날짜(최근)와 처음 날짜(과거)를 확인하였다. 마지막..