2020. 1. 7. 00:22 IT/R (데이터전처리대전 따라하기)
R 데이터샘플링
#랜덤샘플링
## 첫번째 파라미터 : 대상 dataframe
## 두번째 파라미터 : 추출 비율
sample_frac(reserve_table,0.5)
#비율이 아닌 건수로 랜덤 샘플링 할 때
sample_n(reserve_table,100)
#랜덤샘플링2
#고객 단위의 분석에서 예약 데이터 기준으로 샘플링을 할 경우 문제가 발생함
##해결책1 : 예약레코드를 고객 단위로 요약한 후 샘플링(단점 : 제외될 데이터도 일단 요약하는 절차가 필요함)
##해결책2 : 예약 테이블의 고객ID 기준으로 랜덤 샘플링 후 샘플링한 고객ID만 예약데이터에서 추출
#reserve_table에서 고객ID만 뽑아서 중복 제거하여 벡터를 만듬
all_id <- unique(reserve_table$customer_id)
reserve_table %>%
#sample함수를 이용하여 고객ID에서 50% 샘플링해 추출대상 ID를 얻는다
#추출 대상 ID와 일치하는 행을 filter 함수로 추출한다
filter(customer_id %in% sample(all_id, size=length(all_id) * 0.5))
'IT > R (데이터전처리대전 따라하기)' 카테고리의 다른 글
R 분산, 표준편차 구하기 (0) | 2020.01.08 |
---|---|
R 데이터 요약하기 (0) | 2020.01.08 |
R 조건(where절)에 따른 데이터 추출 (0) | 2020.01.07 |
R 데이터 행,열 지정 추출 (0) | 2020.01.06 |
R CSV 데이터 읽기 (0) | 2020.01.06 |