r 9

[20회 실기] 기계학습 문제 풀이 1편

※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'R 프로그래밍'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 문제 복기 참고 사이트 https://www.datamanim.com/dataset/ADPpb/00/20.html ADP 20회 실기 문제 — DataManim 2-1번 데이터 전처리 각 가구의 15분간격의 전력량의 합을 구하고 해당데이터를 바탕으로 총 5개의 군집으로 군집화를 진행한 후 아래의 그림과 같은 형태로 출력하라. 군집화를 위한 데이터 구 www.datamanim.com 1-1. 데이터 확인 및 전처리 데이터 EDA 수행 (결측치 확인 및 처리 방안 논의) 날씨의 온도를 예측하는 것, 종속변수 : actual(최고온도) df

[17회 실기] 기계학습 문제 풀이 2편

※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'R 프로그래밍'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 17회 실기 기계학습 문제 풀이 1편 [17회 실기] 기계학습 문제 풀이 1편 ※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'R 프로그래밍'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 문제 복기 참고한 사이트 ADP 17회 실기 문제 — DataManim 1-4번 danha23.tistory.com 2-1. 마지막 일자 기준, 인구 대비 확진자 비율 높은 상위 5개 국가 구하기 먼저, 데이터의 구조를 확인한 후 날짜 타입을 as.Date() 함수를 이용하여 변환해주었다. 그리고 마지막 날짜(최근)와 처음 날짜(과거)를 확인하였다. 마지막..

[17회 실기] 기계학습 문제 풀이 1편

※ 개인적으로 ADP 실기 문제들을 풀이하려고 합니다. 사용 언어는 'R 프로그래밍'입니다. ※ 코드 및 관련 의견 주심 감사하겠습니다. 문제 복기 참고한 사이트 ADP 17회 실기 문제 — DataManim 1-4번 벌점, 앙상블을 포함하여 모형에 적합한 기계학습 모델 3가지를 제시하라 (평가지표는 MSE, MAPE, R2 모두 확인할 것) 2-1번 마지막 일자를 기준으로 인구 대비 확진자 비율이 높은 상위 5개 국 www.datamanim.com ADP) ADP 실기 기출문제 모음 (17, 18, 19, 20, 21, 22, 23, 24, 25, 26회) ADP 실기 문제집을 사기보다, 필기 문제집에 있는 각종 데이터마이닝 예제들을 직접 코드로 짜보는 것이 좋다는 후기들을 읽고, 코드 예제를 작성할 ..

공공데이터포털 오픈 API 불러오기 2편

지난번 1편에서 "대전광역시"에 대한 정보만 포함된 데이터를 통해 정보를 추출하였다. 이번엔 전국 정보에서 "대전광역시"에 대한 정보만을 추출해보자. 1편: https://danha23.tistory.com/13 공공데이터포털 오픈 API 불러오기 1편 목표 : 공공데이터포털에 있는 오픈 API 불러오자! 먼저, 공공데이터포털에 접속한 후 로그인을 한다. 로그인 후 "마이페이지 - 오픈 API - 개발계정"에서 내가 활용신청한 데이터를 확인할 수 있다 danha23.tistory.com 간단하다! URL을 불러오는 과정에서 paste() 대신, GET() 함수를 사용하는 것이다. library(XML) library(httr) library(dplyr) library(tidyverse) rm(list=l..

공공데이터포털 오픈 API 불러오기 1편

목표 : 공공데이터포털에 있는 오픈 API 불러오자! 먼저, 공공데이터포털에 접속한 후 로그인을 한다. 로그인 후 "마이페이지 - 오픈 API - 개발계정"에서 내가 활용신청한 데이터를 확인할 수 있다. 실습 파일 : 대전광역시 문화관광(관광지) 오픈 API 오픈 API에 대한 자세한 정보는 해당 데이터의 참고문서를 확인하면 된다. 그리고 가장 중요한 것!! API 활용을 위해서는 서비스키(인증키)가 필요하다. ※ 서비스키(인증키)는 "오픈 API - 인증키 발급현황"에서 발급 후 확인 (발급 후 1시간 이후에 사용 가능) ※ API 불러온 후 오류 메시지가 나타난다면, 인코딩 혹은 서비스키 문제 이제, 오픈 API를 불러오자. 필자는 대전광역시 문화관광(관광지) API에서 문화관광 관광지 목록조회(XM..

데이터 입력 오류(인코딩 문제) 간단히 해결하기

1탄에서 데이터 입력 오류(인코딩 문제) 해결하기라는 글을 작성하였는데, 사실 엄청엄청 간단하게 해결할 수 있다. 1탄: https://danha23.tistory.com/4 데이터 입력 오류(인코딩 문제) 해결하기 데이터를 불러오고, 저장하다보면 각종 오류를 만나게 된다. (꼭.. 만난다) 그중에서도 단골 손님은 "인코딩 문제"이다. read.csv() 함수를 이용해 csv 파일을 불러오면서, encoding = "UTF-8" / "euc-kr" 로 danha23.tistory.com 간단하게 해결하는 방법은 readr 패키지를 이용하는 것이다. 기존 read.csv() 함수가 아닌, readr 패키지에 있는 read_csv() 함수를 이용하여 csv 파일을 불러온다. 기존 read.csv() 함수로 ..

데이터 입력 오류(인코딩 문제) 해결하기

데이터를 불러오고, 저장하다보면 각종 오류를 만나게 된다. (꼭.. 만난다) 그중에서도 단골 손님은 "인코딩 문제"이다. read.csv() 함수를 이용해 csv 파일을 불러오면서, encoding = "UTF-8" / "euc-kr" 로 설정하였다. 그럼에도 아래와 같은 오류가 계속 발생하면서 파일을 정상적으로 불러오지 못했다. 이러한 오류는 아래 코드를 통해 해결할 수 있었다. 그러나 .. 파일을 불러온 후에 인코딩을 재설정 하는 부분에서 또다시 Warning message가 발생하였다. 오류 메시지를 무시하고, 불러온 파일을 확인하였더니 한글이 전부 깨져있었다. Sys.getlocale() #인코딩정보 확인 Sys.setlocale("LC_ALL", "C") #초기설정으로 변경(C) data Sys..

웹 크롤링(Web Crawling)으로 데이터 수집하기(2)

R을 이용한 웹 크롤링 마지막 단계는 대전광역시 파일데이터 947건에 대한 관리부서를 추출하는 것이다. 앞 단계 : https://danha23.tistory.com/2 웹 크롤링(Web Crawling)으로 데이터 수집하기(1) R을 이용하여 웹 크롤링(Web Crawling)을 실시하여 원하는 데이터를 수집하겠다. 웹 크롤링을 위해 R에서는 주로 rvest 패키지를 이용한다. rvest는 html로 생성된 웹 사이트의 경우 해당 패키지로 스크 danha23.tistory.com 추출할 관리부서명의 위치를 확인하자. 관리부서명은 "tr-th(관리부서명)-td(실제관리부서명)"에 위치하고 있다. 여기서 필요한 것은 td에 있는 실제관리부서명이다. 앞에서 완성한 final 변수에서 2번째에 위치한 url을..

웹 크롤링(Web Crawling)으로 데이터 수집하기(1)

R을 이용하여 웹 크롤링(Web Crawling)을 실시하여 원하는 데이터를 수집하겠다. 웹 크롤링을 위해 R에서는 주로 rvest 패키지를 이용한다. rvest는 html로 생성된 웹 사이트의 경우 해당 패키지로 스크래핑이 가능하다. 먼저, R에서 rvest와 dplyr 패키지를 불러오겠다. library(rvest) library(dplyr) 필자가 진행할 웹 크롤링의 순서는 다음과 같다. 1. 어떤 데이터를 추출할 것인지 정한 후 해당 데이터에 대한 URL 추출 2. URL 안에 있는 내용 추출 필자는 공공데이터포털(https://www.data.go.kr/index.do)에서 "대전광역시"의 파일데이터 현황을 추출하려고 한다. 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제..