2020. 2. 3. 23:10 IT/R (데이터전처리대전 따라하기)
R null 값을 평균값으로 보완
# 데이터 읽기
null_test <- read.csv('data/null_test.csv',fileEncoding='UTF-8',header=TRUE, stringsAsFactors=FALSE)
# 데이터 확인
null_test
a b c
1 EE NA NA
2 DD 312 45
3 EE NA 456
4 BB 567 5678
5 CC 345 456
6 AA 678 NA
7 KK 7465 23
8 AA NA 456
9 EE 4523 435
#null 값을 평균값으로 보완
#na.rm = TRUE는 NA를 제외한 평균 값을 계산, FALSE로 할 경우 null 값이 평균값 계산에 포함되어 null 반환
b_mean <- mean(null_test$b, na.rm=TRUE)
c_mean <- mean(null_test$c, na.rm=TRUE)
#평균값 확인
b_mean
c_mean
> b_mean
[1] 2315
> c_mean
[1] 1078.429
#null_test dataframe의 b,c값 중 null 값은 b_mean, c_mean 으로 보완
null_test %>%
replace_na(list(b = b_mean, c = c_mean))
a b c
1 EE 2315 1078.429
2 DD 312 45.000
3 EE 2315 456.000
4 BB 567 5678.000
5 CC 345 456.000
6 AA 678 1078.429
7 KK 7465 23.000
8 AA 2315 456.000
9 EE 4523 435.000
'IT > R (데이터전처리대전 따라하기)' 카테고리의 다른 글
R 날짜, 시간 계산 (0) | 2020.03.26 |
---|---|
R null 값 찾기, 제거, 치환(nvl) (0) | 2020.02.02 |
R 조건에 따라 조인할 마스터 테이블 변경하기 (0) | 2020.01.18 |
R 조인 (0) | 2020.01.12 |
R 순위 구하기 (0) | 2020.01.09 |