분석가 Step 1. 데이터 분석/R

데이터 입력 오류(인코딩 문제) 간단히 해결하기

뚱뿌 2023. 3. 16. 13:49

 

1탄에서 데이터 입력 오류(인코딩 문제) 해결하기라는 글을 작성하였는데, 

사실 엄청엄청 간단하게 해결할 수 있다.

 

1탄: https://danha23.tistory.com/4

 

데이터 입력 오류(인코딩 문제) 해결하기

데이터를 불러오고, 저장하다보면 각종 오류를 만나게 된다. (꼭.. 만난다) 그중에서도 단골 손님은 "인코딩 문제"이다. read.csv() 함수를 이용해 csv 파일을 불러오면서, encoding = "UTF-8" / "euc-kr" 로

danha23.tistory.com

 

간단하게 해결하는 방법은 readr 패키지를 이용하는 것이다.

기존 read.csv() 함수가 아닌,

readr 패키지에 있는 read_csv() 함수를 이용하여 csv 파일을 불러온다.

 

기존 read.csv() 함수로 csv 파일을 불러왔다. 

그 결과, 아래와 같이 인코딩 문제가 발생한다.

df <- read.csv('전국도시공원표준데이터.csv')

인코딩 오류 발생

 

그러나, 

read_csv() 함수를 이용하여 csv 파일을 불러온다면 인코딩 문제는 발생하지 않는다.

head() 함수로 앞부분에 대한 데이터 정보만 확인했을 때,

컬럼과 데이터 안에 한글이 제대로 들어와 있는 것을 확인할 수 있다.

 

※ readr 패키지가 없으면 install.packages("readr")

library(readr)
df <- read_csv('전국도시공원표준데이터.csv', locale = locale(encoding = 'euc-kr'))

head(df)

 

read_csv() 함수는 날짜나 시간 형태로 데이터를 읽어올 수 있으며, 일반적으로 더 빠르게 데이터를 읽어온다. 

그리고 데이터 형태를 tibble로 읽어온다.

 

그렇기에 만일 데이터 프레임 형식으로 분석을 진행하려면,

as.data.frame() 함수를 이용하여 데이터프레임으로 변환이 필요하다.