#랜덤샘플링


## 첫번째 파라미터 : 대상 dataframe
## 두번째 파라미터 : 추출 비율
sample_frac(reserve_table,0.5)


#비율이 아닌 건수로 랜덤 샘플링 할 때
sample_n(reserve_table,100)

 

 

 

#랜덤샘플링2

#고객 단위의 분석에서 예약 데이터 기준으로 샘플링을 할 경우 문제가 발생함
##해결책1 : 예약레코드를 고객 단위로 요약한 후 샘플링(단점 : 제외될 데이터도 일단 요약하는 절차가 필요함)
##해결책2 : 예약 테이블의 고객ID 기준으로 랜덤 샘플링 후 샘플링한 고객ID만 예약데이터에서 추출

#reserve_table에서 고객ID만 뽑아서 중복 제거하여 벡터를 만듬
all_id <- unique(reserve_table$customer_id)

reserve_table %>%
  #sample함수를 이용하여 고객ID에서 50% 샘플링해 추출대상 ID를 얻는다

  #추출 대상 ID와 일치하는 행을 filter 함수로 추출한다
  filter(customer_id %in% sample(all_id, size=length(all_id) * 0.5))

Posted by 소율소희아빠

블로그 이미지
소율소희아빠

공지사항

Yesterday
Today
Total

달력

 « |  » 2025.5
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

최근에 올라온 글

최근에 달린 댓글

글 보관함