분석가 Step 0. 자격증 14

[23회 실기] 기계학습 문제 풀이 2편

기계학습 문제 풀이 1편: https://danha23.tistory.com/25 [23회 실기] 기계학습 문제 풀이 1편 ※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'Python(파이썬)'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 참고: https://www.datamanim.com/dataset/ADPpb/00/23.html 1-1. 데이터 EDA danha23.tistory.com 2-1. 데이터 불균형 확인 및 판단 근거 작성 데이터의 불균형은 클래스 비율을 살펴봄으로써 판단할 수 있다. 클래스의 데이터 수가 현저히 차이가 나는 경우 데이터 불균형을 의심할 수 있다. 종속변수 'Occupancy'의 데이터 불균형을 확인하였을 때, 0 클래스와 1 클래스는 각 8..

[23회 실기] 기계학습 문제 풀이 1편

※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'Python(파이썬)'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 참고: https://www.datamanim.com/dataset/ADPpb/00/23.html 1-1. 데이터 EDA 수행 분석가 입장에서 의미있는 탐색 먼저, 데이터의 형식과 각 변수에 대한 기술통계 값을 확인하였다. 데이터는 총 17,910개의 행으로 이루어져있고, 7개의 변수가 있다. 7개의 변수에서 1개는 날짜 데이터로 date 변환이 필요해 보이고, 종속변수 Occupancy는 0과 1로 이루어진 것으로 factor 변환이 필요해 보인다. 또한 각 변수의 기술통계 값을 확인하였을 때, 수치형 변수는 단위가 다를 뿐더러 분포 역시 다르다는 것을 알 수..

[22회 실기] 기계학습 문제 풀이

※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'Python(파이썬)'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 참고: https://www.datamanim.com/dataset/ADPpb/00/22.html 1-1. 탐색적 데이터 분석 수행(시각화 포함) import pandas as pd df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/22/data1.csv') display(df.head()) display(df.tail()) # 데이터 형태 확인 df.shape # 통계적 정보 확인 df.describe() # 데이터 정보 확인 df.info() 탐색적 데이터 분석을 수..

[20회 실기] 기계학습 문제 풀이 2편

※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'R 프로그래밍'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 20회 실기 기계학습 문제 풀이 1편 [20회 실기] 기계학습 문제 풀이 1편 ※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'R 프로그래밍'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 문제 복기 참고 사이트 https://www.datamanim.com/dataset/ADPpb/00/20.ht danha23.tistory.com 2-1. 데이터 전처리 각 가구의 15분 간격의 전력량의 합을 구하고, 해당 데이터를 바탕으로 총 5개의 군집으로 군집화 진행 그 후 아래의 그림과 같은 형태로 출력 군집화를 위한 데이터 구성의 이유 설명 보통은..

[20회 실기] 기계학습 문제 풀이 1편

※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'R 프로그래밍'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 문제 복기 참고 사이트 https://www.datamanim.com/dataset/ADPpb/00/20.html ADP 20회 실기 문제 — DataManim 2-1번 데이터 전처리 각 가구의 15분간격의 전력량의 합을 구하고 해당데이터를 바탕으로 총 5개의 군집으로 군집화를 진행한 후 아래의 그림과 같은 형태로 출력하라. 군집화를 위한 데이터 구 www.datamanim.com 1-1. 데이터 확인 및 전처리 데이터 EDA 수행 (결측치 확인 및 처리 방안 논의) 날씨의 온도를 예측하는 것, 종속변수 : actual(최고온도) df

[17회 실기] 기계학습 문제 풀이 2편

※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'R 프로그래밍'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 17회 실기 기계학습 문제 풀이 1편 [17회 실기] 기계학습 문제 풀이 1편 ※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'R 프로그래밍'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 문제 복기 참고한 사이트 ADP 17회 실기 문제 — DataManim 1-4번 danha23.tistory.com 2-1. 마지막 일자 기준, 인구 대비 확진자 비율 높은 상위 5개 국가 구하기 먼저, 데이터의 구조를 확인한 후 날짜 타입을 as.Date() 함수를 이용하여 변환해주었다. 그리고 마지막 날짜(최근)와 처음 날짜(과거)를 확인하였다. 마지막..

[17회 실기] 기계학습 문제 풀이 1편

※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'R 프로그래밍'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 문제 복기 참고한 사이트 ADP 17회 실기 문제 — DataManim 1-4번 벌점, 앙상블을 포함하여 모형에 적합한 기계학습 모델 3가지를 제시하라 (평가지표는 MSE, MAPE, R2 모두 확인할 것) 2-1번 마지막 일자를 기준으로 인구 대비 확진자 비율이 높은 상위 5개 국 www.datamanim.com ADP) ADP 실기 기출문제 모음 (17, 18, 19, 20, 21, 22, 23, 24, 25, 26회) ADP 실기 문제집을 사기보다, 필기 문제집에 있는 각종 데이터마이닝 예제들을 직접 코드로 짜보는 것이 좋다는 후기들을 읽고, 코드 예제를 작성할 ..

[1장] 분산 데이터베이스

분산데이터베이스 물리적으로 분산된 데이터베이스를 하나의 논리적 시스템으로 사용 (성능 극대화) ▶ 설계방식 하향식 : 전역 스키마 작성 후 지역사상 스키마 작성 상향식 : 지역 스키마 작성 후 전역 스키마 작성 ▶ 장/단점 (장점) 지역 자치성, 점증적 시스템 용량 확장 신뢰성 및 가용성(데이터의 가용성과 신뢰성 증가), 효용성 및 융통성 빠른 응답 속도 및 통신비용 절감 시스템 규모의 적절한 조절 각 지역 사용자의 요구 수용 증대 (단점) 소프트웨어 개발 비용 증가 오류의 잠재성 및 처리 비용 증대 설계, 관리의 복잡성 및 비용 증가 불규칙한 응답 속도 통제의 어려움 및 데이터 무결성에 대한 위협 ▶ 데이터베이스 분산 설계를 적용하여 효율성을 증대시키는 경우 성능이 중요한 사이트에 적용 공통코드, 기준..

[1장] 반정규화, 대량 데이터에 따른 성능

성능 저하 원인 하나의 테이블에 데이터 대량 집중 및 여러 컬럼 존재 : 디스크 I/O 높아짐 대량의 데이터가 처리되는 테이블 및 하나의 테이블에 존재 : 디스크 I/O 높아짐, 성능 저하 컬럼이 많아지는 경우 : 로우체이닝, 로우 마이그레이션 발생 ▶ 반정규화의 대상에 대해 다른 방법으로 처리 지나치게 많은 조인이 걸려 데이터를 조회하는 작업이 기술적으로 어려운 경우 : 뷰(VIEW) 사용 대량의 데이터처리나 부분처리에 의해 성능이 저하되는 경우 : 클러스터링 적용, 인덱스 조정 대량의 데이터로 성능이 저하되는 경우 : PK의 성격에 따라 부분적인 테이블로 분리 (파티셔닝 기법) 응용 애플리케이션에서 로직을 구사하는 방법 변경으로 성능 향상 ▶ 대량 데이터 발생으로 인한 현상 블록 I/O 횟수 증가, ..

[1장] 데이터 모델, 정규화, 반정규화

성능 데이터 모델링 데이터베이스 성능 향상을 위해 설계 단계부터 성능과 관련된 모든 사항을 고려하여 데이터 모델링 수행 정규화, 반정규화, 테이블 통합 및 분할, 조인 구조, PK/FK 설정 등 ▶ 수행시점 사전에 할 수록 비용이 들지 않음 (빠를수록 좋음) 분석/설계 단계에서 성능 모델링 수행하면 재업무 비용 최소화 가능 ▶ 고려사항 정규화 : 데이터를 주요 관심사별로 분산 시키는 효과 용량산정 : 어떤 엔터티(Table)에 데이터가 집중됐는지 파악 트랜잭션 유형 파악 : CRUD 매트릭스/시퀀스 다이어그램 활용, 데이터 조회에 필요한 조인 관계 등 파악 반정규화 : 테이블, 속성, 단계에 대해 포괄적인 반정규화 방법 적용 이력모델 조정, 인덱스를 고려한 PK/FK 순서 조정, 슈퍼/서브타입 조정 등 ..