분석가 Step 1. 데이터 분석/R 6

공공데이터포털 오픈 API 불러오기 2편

지난번 1편에서 "대전광역시"에 대한 정보만 포함된 데이터를 통해 정보를 추출하였다. 이번엔 전국 정보에서 "대전광역시"에 대한 정보만을 추출해보자. 1편: https://danha23.tistory.com/13 공공데이터포털 오픈 API 불러오기 1편 목표 : 공공데이터포털에 있는 오픈 API 불러오자! 먼저, 공공데이터포털에 접속한 후 로그인을 한다. 로그인 후 "마이페이지 - 오픈 API - 개발계정"에서 내가 활용신청한 데이터를 확인할 수 있다 danha23.tistory.com 간단하다! URL을 불러오는 과정에서 paste() 대신, GET() 함수를 사용하는 것이다. library(XML) library(httr) library(dplyr) library(tidyverse) rm(list=l..

공공데이터포털 오픈 API 불러오기 1편

목표 : 공공데이터포털에 있는 오픈 API 불러오자! 먼저, 공공데이터포털에 접속한 후 로그인을 한다. 로그인 후 "마이페이지 - 오픈 API - 개발계정"에서 내가 활용신청한 데이터를 확인할 수 있다. 실습 파일 : 대전광역시 문화관광(관광지) 오픈 API 오픈 API에 대한 자세한 정보는 해당 데이터의 참고문서를 확인하면 된다. 그리고 가장 중요한 것!! API 활용을 위해서는 서비스키(인증키)가 필요하다. ※ 서비스키(인증키)는 "오픈 API - 인증키 발급현황"에서 발급 후 확인 (발급 후 1시간 이후에 사용 가능) ※ API 불러온 후 오류 메시지가 나타난다면, 인코딩 혹은 서비스키 문제 이제, 오픈 API를 불러오자. 필자는 대전광역시 문화관광(관광지) API에서 문화관광 관광지 목록조회(XM..

데이터 입력 오류(인코딩 문제) 간단히 해결하기

1탄에서 데이터 입력 오류(인코딩 문제) 해결하기라는 글을 작성하였는데, 사실 엄청엄청 간단하게 해결할 수 있다. 1탄: https://danha23.tistory.com/4 데이터 입력 오류(인코딩 문제) 해결하기 데이터를 불러오고, 저장하다보면 각종 오류를 만나게 된다. (꼭.. 만난다) 그중에서도 단골 손님은 "인코딩 문제"이다. read.csv() 함수를 이용해 csv 파일을 불러오면서, encoding = "UTF-8" / "euc-kr" 로 danha23.tistory.com 간단하게 해결하는 방법은 readr 패키지를 이용하는 것이다. 기존 read.csv() 함수가 아닌, readr 패키지에 있는 read_csv() 함수를 이용하여 csv 파일을 불러온다. 기존 read.csv() 함수로 ..

데이터 입력 오류(인코딩 문제) 해결하기

데이터를 불러오고, 저장하다보면 각종 오류를 만나게 된다. (꼭.. 만난다) 그중에서도 단골 손님은 "인코딩 문제"이다. read.csv() 함수를 이용해 csv 파일을 불러오면서, encoding = "UTF-8" / "euc-kr" 로 설정하였다. 그럼에도 아래와 같은 오류가 계속 발생하면서 파일을 정상적으로 불러오지 못했다. 이러한 오류는 아래 코드를 통해 해결할 수 있었다. 그러나 .. 파일을 불러온 후에 인코딩을 재설정 하는 부분에서 또다시 Warning message가 발생하였다. 오류 메시지를 무시하고, 불러온 파일을 확인하였더니 한글이 전부 깨져있었다. Sys.getlocale() #인코딩정보 확인 Sys.setlocale("LC_ALL", "C") #초기설정으로 변경(C) data Sys..

웹 크롤링(Web Crawling)으로 데이터 수집하기(2)

R을 이용한 웹 크롤링 마지막 단계는 대전광역시 파일데이터 947건에 대한 관리부서를 추출하는 것이다. 앞 단계 : https://danha23.tistory.com/2 웹 크롤링(Web Crawling)으로 데이터 수집하기(1) R을 이용하여 웹 크롤링(Web Crawling)을 실시하여 원하는 데이터를 수집하겠다. 웹 크롤링을 위해 R에서는 주로 rvest 패키지를 이용한다. rvest는 html로 생성된 웹 사이트의 경우 해당 패키지로 스크 danha23.tistory.com 추출할 관리부서명의 위치를 확인하자. 관리부서명은 "tr-th(관리부서명)-td(실제관리부서명)"에 위치하고 있다. 여기서 필요한 것은 td에 있는 실제관리부서명이다. 앞에서 완성한 final 변수에서 2번째에 위치한 url을..

웹 크롤링(Web Crawling)으로 데이터 수집하기(1)

R을 이용하여 웹 크롤링(Web Crawling)을 실시하여 원하는 데이터를 수집하겠다. 웹 크롤링을 위해 R에서는 주로 rvest 패키지를 이용한다. rvest는 html로 생성된 웹 사이트의 경우 해당 패키지로 스크래핑이 가능하다. 먼저, R에서 rvest와 dplyr 패키지를 불러오겠다. library(rvest) library(dplyr) 필자가 진행할 웹 크롤링의 순서는 다음과 같다. 1. 어떤 데이터를 추출할 것인지 정한 후 해당 데이터에 대한 URL 추출 2. URL 안에 있는 내용 추출 필자는 공공데이터포털(https://www.data.go.kr/index.do)에서 "대전광역시"의 파일데이터 현황을 추출하려고 한다. 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제..