python 4

[23회 실기] 기계학습 문제 풀이 1편

※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'Python(파이썬)'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 참고: https://www.datamanim.com/dataset/ADPpb/00/23.html 1-1. 데이터 EDA 수행 분석가 입장에서 의미있는 탐색 먼저, 데이터의 형식과 각 변수에 대한 기술통계 값을 확인하였다. 데이터는 총 17,910개의 행으로 이루어져있고, 7개의 변수가 있다. 7개의 변수에서 1개는 날짜 데이터로 date 변환이 필요해 보이고, 종속변수 Occupancy는 0과 1로 이루어진 것으로 factor 변환이 필요해 보인다. 또한 각 변수의 기술통계 값을 확인하였을 때, 수치형 변수는 단위가 다를 뿐더러 분포 역시 다르다는 것을 알 수..

특정 폴더 안의 특정 파일(목록) 반복해서 가져오기

지난 1탄에서는 특정 폴더 안에 있는 파일(목록)만을 불러왔다. 1탄: https://danha23.tistory.com/7 특정 폴더 안의 특정 파일(목록) 가져오기 특정 폴더 안에있는 특정 파일(목록)을 가져오자. 1) pathlib, common을 이용하여 특정 폴더와 파일 경로 불러오기 경로를 불러온 후, 해당 폴더에 어떤 파일이 있는지 os.listdir()을 이용하여 확인하기 danha23.tistory.com 이번에는 특정 폴더 안에있는 특정 파일(목록)을 반복해서 불러오겠다. 먼저, 앞선 단계에서 특정 폴더 내에 있는 모든 파일(목록)들을 불러온 변수에서 파일들을 반복문(for)으로 불러온다. for f in file_names: print(f) 불러온 파일들 중에서 '.xlsx' 형식의 ..

특정 폴더 안의 파일(목록) 가져오기

특정 폴더 안에있는 특정 파일(목록)을 가져오자. 1) pathlib, common을 이용하여 특정 폴더와 파일 경로 불러오기 경로를 불러온 후, 해당 폴더에 어떤 파일이 있는지 os.listdir()을 이용하여 확인하기 from pathlib import Path import pandas as pd import os try: import common DATA = common.data except ImportError: DATA = Path().resolve() / 'data' file_names = os.listdir(DATA) file_names 2) os를 이용하여 현재 경로 불러오기 경로를 불러온 후, 해당 폴더에 어떤 파일이 있는지 os.listdir()을 이용하여 확인하기 ※ os.getcwd..

다중인덱스/컬럼(Multi Index/Column) 편

데이터 분석을 하다보면, 수많은 데이터를 이용하게 된다. 일반적으로 csv 혹은 text 파일을 이용하지만 간혹 excel, html, xml 등 다양한 데이터를 이용한다. 필자는 주로 csv 파일을 이용하는데, 최근에 excel 데이터를 활용한 경험이 있다. 해당 데이터는 다중인덱스와 컬럼으로 구성되었고, 필자는 이러한 데이터를 csv 파일 형식의 데이터로 변환하려고 한다. 먼저, 다중 인덱스와 컬럼으로 구성된 데이터프레임(DataFrame)을 생성하였다. 아래 보이는 데이터를 unstack(), stack(), reset_index() 등을 이용하여 필자가 원하는 형태로 데이터를 재구성 하겠다. ※ stack : 컬럼을 인덱스로 변환 (Series 형식으로 변환됨) ※ unstack : 인덱스를 컬럼..