분석가 Step 1. 데이터 분석/Python 7

Geocoder API 2.0 레퍼런스를 이용하여 좌표계 추출

지난번, 주소 정보가 포함된 데이터를 활용하여 지오코딩과 역지오코딩을 하였다. 지오코딩(Geocoding), 역지오코딩(Geocoding-reverse) 편 지오코딩(Geocoding) 원하는 주소를 x, y 좌표(위도, 경도)로 변환하자! from geopy.geocoders import Nominatim # Nominatim 객체 생성 geo_local = Nominatim(user_agent= 'South Korea', timeout=None) # 위도/경도 반환 함수 def geocod danha23.tistory.com 그러나 해당 정보로 좌표계를 추출한 후에 지도상에 데이터를 확인하였을 때, 좌표정보가 정확하지 않았다. 주소 데이터를 좌표로 변환하는 많은 글들을 참고하였을 때, 파이썬 geop..

지오코딩(Geocoding), 역지오코딩(Geocoding-reverse) 편

지오코딩(Geocoding) 원하는 주소를 x, y 좌표(위도, 경도)로 변환하자! from geopy.geocoders import Nominatim # Nominatim 객체 생성 geo_local = Nominatim(user_agent= 'South Korea', timeout=None) # 위도/경도 반환 함수 def geocoding(address): try: geo = geo_local.geocode(address) x_y = [geo.latitude, geo.longitude] return x_y except: return [0, 0] 역지오코딩(Geocoding-reverse) 원하는 좌표를(x, y) 주소로 변환하자! def geocoding_reverse(lat, lng): try: ..

데이터 분석의 기초, 데이터 파악하기

데이터가 주어졌을 때, 가장 먼저 해야할 일은 데이터의 전반적인 구조를 파악하는 것이다. 데이터에 어떤 변수들이 있는지, 행과 열의 구성은 어떠한지 등에 대한 정보들을 살펴보고, 어떠한 모델링으로 분석을 진행하고, 그 분석 결과를 토대로 어떠한 인사이트를 도출할 것인지까지 분석 방향을 결정할 수 있다. 이러한 과정을 탐색적 데이터 분석: Exploratory Data Analysis(EDA)라고 한다. 탐색적 데이터 분석(EDA) 데이터 분석 프로세스의 초기 단계로 데이터를 이해하고 파악하기 위해 수행되는 활동이다. 주로 데이터의 구조/패턴/이상치/변수 간 관계 등을 탐색한다. 이러한 탐색을 통해 데이터에 대해 더 깊이 이해할 수 있으며, 데이터의 품질을 향상시켜 모델의 성능을 높이는데 도움을 준다. E..

데이터 파일 인코딩 확인하기

파이썬으로 데이터를 읽고, 저장할 때 주로 csv, excel, text 등의 파일 형태를 사용한다. 그리고 데이터는 여러 인코딩을 가지고 있는데, 그중에서도 보통 가장 많은 인코딩 유형은 'utf-8', 'euc-kr'이다. 1. UTF-8 (Unicode Transformation Format 8-bit) - 현재 가장 널리 사용되는 문자 인코딩 방식 중 하나이며, 유니코드(Unicode)를 나타내기 위해 설계된 인코딩 방식 *유니코드: 전 세계 대부분의 문자와 기호를 포함하는 국제 표준 문자 집합 - 8비트 기반의 가변 길이 인코딩 방식으로 ASCII 문자(영어 알파벳 및 일부 특수 문자)는 1바이트로 표현하고, 문자의 경우 필요에 따라 2~4바이트까지 표현 - ASCII와 완벽하게 호환되므로, 기..

특정 폴더 안의 특정 파일(목록) 반복해서 가져오기

지난 1탄에서는 특정 폴더 안에 있는 파일(목록)만을 불러왔다. 1탄: https://danha23.tistory.com/7 특정 폴더 안의 특정 파일(목록) 가져오기 특정 폴더 안에있는 특정 파일(목록)을 가져오자. 1) pathlib, common을 이용하여 특정 폴더와 파일 경로 불러오기 경로를 불러온 후, 해당 폴더에 어떤 파일이 있는지 os.listdir()을 이용하여 확인하기 danha23.tistory.com 이번에는 특정 폴더 안에있는 특정 파일(목록)을 반복해서 불러오겠다. 먼저, 앞선 단계에서 특정 폴더 내에 있는 모든 파일(목록)들을 불러온 변수에서 파일들을 반복문(for)으로 불러온다. for f in file_names: print(f) 불러온 파일들 중에서 '.xlsx' 형식의 ..

특정 폴더 안의 파일(목록) 가져오기

특정 폴더 안에있는 특정 파일(목록)을 가져오자. 1) pathlib, common을 이용하여 특정 폴더와 파일 경로 불러오기 경로를 불러온 후, 해당 폴더에 어떤 파일이 있는지 os.listdir()을 이용하여 확인하기 from pathlib import Path import pandas as pd import os try: import common DATA = common.data except ImportError: DATA = Path().resolve() / 'data' file_names = os.listdir(DATA) file_names 2) os를 이용하여 현재 경로 불러오기 경로를 불러온 후, 해당 폴더에 어떤 파일이 있는지 os.listdir()을 이용하여 확인하기 ※ os.getcwd..

다중인덱스/컬럼(Multi Index/Column) 편

데이터 분석을 하다보면, 수많은 데이터를 이용하게 된다. 일반적으로 csv 혹은 text 파일을 이용하지만 간혹 excel, html, xml 등 다양한 데이터를 이용한다. 필자는 주로 csv 파일을 이용하는데, 최근에 excel 데이터를 활용한 경험이 있다. 해당 데이터는 다중인덱스와 컬럼으로 구성되었고, 필자는 이러한 데이터를 csv 파일 형식의 데이터로 변환하려고 한다. 먼저, 다중 인덱스와 컬럼으로 구성된 데이터프레임(DataFrame)을 생성하였다. 아래 보이는 데이터를 unstack(), stack(), reset_index() 등을 이용하여 필자가 원하는 형태로 데이터를 재구성 하겠다. ※ stack : 컬럼을 인덱스로 변환 (Series 형식으로 변환됨) ※ unstack : 인덱스를 컬럼..