파이썬 6

folium을 이용하여 좌표 정보를 지도 위에 나타내기

지난번 대전광역시 모범음식점 2023년 3월 기준 데이터를 이용하여 주소정보를 좌표계로 변환(지오코딩)하였다. Geocoder API 2.0 레퍼런스를 이용하여 좌표계 추출 지난번, 주소 정보가 포함된 데이터를 활용하여 지오코딩과 역지오코딩을 하였다. 지오코딩(Geocoding), 역지오코딩(Geocoding-reverse) 편 지오코딩(Geocoding) 원하는 주소를 x, y 좌표(위도, 경도)로 변환 danha23.tistory.com 이제, 좌표 정보를 지도 위에 나타낼 것이다. 즉, 공간에 대한 정보를 지도 위에 표현(공간시각화)하는 작업을 진행할 것이다. 이를 위해 사용할 Python 패키지는 folium 이다. folium 파이썬에서 지도 위에 점을 찍거나, 선을 그리거나, 원을 그리는 등 ..

카테고리 없음 2023.07.26

데이터 파일 인코딩 확인하기

파이썬으로 데이터를 읽고, 저장할 때 주로 csv, excel, text 등의 파일 형태를 사용한다. 그리고 데이터는 여러 인코딩을 가지고 있는데, 그중에서도 보통 가장 많은 인코딩 유형은 'utf-8', 'euc-kr'이다. 1. UTF-8 (Unicode Transformation Format 8-bit) - 현재 가장 널리 사용되는 문자 인코딩 방식 중 하나이며, 유니코드(Unicode)를 나타내기 위해 설계된 인코딩 방식 *유니코드: 전 세계 대부분의 문자와 기호를 포함하는 국제 표준 문자 집합 - 8비트 기반의 가변 길이 인코딩 방식으로 ASCII 문자(영어 알파벳 및 일부 특수 문자)는 1바이트로 표현하고, 문자의 경우 필요에 따라 2~4바이트까지 표현 - ASCII와 완벽하게 호환되므로, 기..

[23회 실기] 기계학습 문제 풀이 2편

기계학습 문제 풀이 1편: https://danha23.tistory.com/25 [23회 실기] 기계학습 문제 풀이 1편 ※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'Python(파이썬)'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 참고: https://www.datamanim.com/dataset/ADPpb/00/23.html 1-1. 데이터 EDA danha23.tistory.com 2-1. 데이터 불균형 확인 및 판단 근거 작성 데이터의 불균형은 클래스 비율을 살펴봄으로써 판단할 수 있다. 클래스의 데이터 수가 현저히 차이가 나는 경우 데이터 불균형을 의심할 수 있다. 종속변수 'Occupancy'의 데이터 불균형을 확인하였을 때, 0 클래스와 1 클래스는 각 8..

특정 폴더 안의 특정 파일(목록) 반복해서 가져오기

지난 1탄에서는 특정 폴더 안에 있는 파일(목록)만을 불러왔다. 1탄: https://danha23.tistory.com/7 특정 폴더 안의 특정 파일(목록) 가져오기 특정 폴더 안에있는 특정 파일(목록)을 가져오자. 1) pathlib, common을 이용하여 특정 폴더와 파일 경로 불러오기 경로를 불러온 후, 해당 폴더에 어떤 파일이 있는지 os.listdir()을 이용하여 확인하기 danha23.tistory.com 이번에는 특정 폴더 안에있는 특정 파일(목록)을 반복해서 불러오겠다. 먼저, 앞선 단계에서 특정 폴더 내에 있는 모든 파일(목록)들을 불러온 변수에서 파일들을 반복문(for)으로 불러온다. for f in file_names: print(f) 불러온 파일들 중에서 '.xlsx' 형식의 ..

특정 폴더 안의 파일(목록) 가져오기

특정 폴더 안에있는 특정 파일(목록)을 가져오자. 1) pathlib, common을 이용하여 특정 폴더와 파일 경로 불러오기 경로를 불러온 후, 해당 폴더에 어떤 파일이 있는지 os.listdir()을 이용하여 확인하기 from pathlib import Path import pandas as pd import os try: import common DATA = common.data except ImportError: DATA = Path().resolve() / 'data' file_names = os.listdir(DATA) file_names 2) os를 이용하여 현재 경로 불러오기 경로를 불러온 후, 해당 폴더에 어떤 파일이 있는지 os.listdir()을 이용하여 확인하기 ※ os.getcwd..

다중인덱스/컬럼(Multi Index/Column) 편

데이터 분석을 하다보면, 수많은 데이터를 이용하게 된다. 일반적으로 csv 혹은 text 파일을 이용하지만 간혹 excel, html, xml 등 다양한 데이터를 이용한다. 필자는 주로 csv 파일을 이용하는데, 최근에 excel 데이터를 활용한 경험이 있다. 해당 데이터는 다중인덱스와 컬럼으로 구성되었고, 필자는 이러한 데이터를 csv 파일 형식의 데이터로 변환하려고 한다. 먼저, 다중 인덱스와 컬럼으로 구성된 데이터프레임(DataFrame)을 생성하였다. 아래 보이는 데이터를 unstack(), stack(), reset_index() 등을 이용하여 필자가 원하는 형태로 데이터를 재구성 하겠다. ※ stack : 컬럼을 인덱스로 변환 (Series 형식으로 변환됨) ※ unstack : 인덱스를 컬럼..