[성동3기 전Z전능 데이터 분석가] DAY 31_엑셀 _ RFM 분석 / AI 활용 / 프로젝트 실습 (유튜브 트렌드 분석)
RFM 분석
- RFM 분석은 고객의 가치를 평가하기 위한 기법
- 고객을 R-F-M 차원에서 등급을 매기는 분석
- Recency : 고객이 얼마나 최근에 구매를 했는가?
- Frequency : 고객이 얼마나 자주 구매를 했는가?
- Monetary : 고객이 구매에 얼마나 많은 지출을 했는가?
RFM 실습해보기
- 사용 함수
- =PERCENTRANK.EXC(범위, 특정 값, 1) : 범위 내에서 특정 값의 백분율을 알려주는 함수
- 그룹 전체에서 백분율을 구해서 RFM 을 각각 점수화 할 때 사용
- 값이 0~1 사이로 나오기 때문에 *5 으로 점수화 후 Round 함수 사용 권장
- Round(반올림 할 숫자, 자릿수) : 반올림 함수
- =PERCENTRANK.EXC(범위, 특정 값, 1) : 범위 내에서 특정 값의 백분율을 알려주는 함수
- RFM Segment
- RFM 값을 전부 이어 붙인 값
- & 기호로 R&F&M 으로 Segment 값 구할 수 있음
- ex) R(3), F(5), M(2) 인 고객의 RFM Segment = 352
- FRM Score
- RFM 을 모두 합한 값
- ex) R(3), F(5), M(2) 인 고객의 RFM Score = 10
- Sum 함수 활용
엑셀에 AI 활용하기
Gemini 사용
Google AI Studio 를 통해 Gemini 와 실시간 대화하며, 공유된 파일에 대해 데이터 분석 과정을 함께 진행해나갈 수 있다.
[Google AI Studio]
https://aistudio.google.com/prompts/new_chat
프로젝트 실습
캐글에서 찾은 'YouTube Trending Videos Dataset' 으로 엑셀을 활용하여 데이터 전처리, 가공, 분석, 시각화까지 실습해보았다.
- 주제 : 유튜브 트렌드 분석
- 데이터셋 : 캐글 (1년 전 데이터)
https://www.kaggle.com/datasets/thedevastator/youtube-trending-videos-dataset
YouTube Trending Videos Dataset
Exploring YouTube Trending Videos
www.kaggle.com
데이터 전처리, 가공
- 필요없는 열 삭제
- '트렌드 등극까지 걸린 시간' 칼럼 추가 : publish date - trending date
- 'Engagement Rate' 칼럼 추가 : (likes + dislike + comment_count)/views
- 'Like Ratio' 칼럼 추가 : likes/(likes + dislikes)
데이터 분석 _ 피벗 테이블
- 카테고리별 뷰(평균)
- Title 별 좋아요 수(합계)
- 카테고리별 트렌드 등극 시간(평균)
데이터 시각화 _ 대시보드
위 분석한 피벗테이블을 차트로 만들어 주었다. YouTube 회사의 대표 컬러를 메인으로 삼아 디자인해보았다.
- 메인 컬러 : YouTube 의 상징 'red'
- 배경 : 차트 시각적 극대화를 위해 'Dark' 계열
Reflection
파이썬 이후 엑셀... 조금 해봤다고 만만히 생각했었던게 최대 실수이다. 막상 로데이터를 가지고 전처리, 분석, 시각화하여 대시보드까지 단시간안에 해낸다는 것이 쉽지 않았다. 특히, 주제를 선정할 때 자칫 욕심을 부려 복잡하게 생각했다가는 큰 코를 다치게 되는 것이다. 그 당사자가 바로 나, 처음에는 '행복도와 경제력의 관계 분석' 을 주제로 잡으려 했었다. 일단 첫번째 난관이 데이터셋이 여러개 필요하다는 것이었다. 그리고, 그만큼 전처리가 복잡해진다는 것이 두번째 난관.. 2시간 내 대시보드까지 제작하기에는 한계가 있었다. 그래서, 결국 하나의 데이터셋 만으로 분석할 수 있을 만한 주제를 잡았다. 항상 어떤 프로젝트를 진행하려고 할 때, 주어진 시간과 나의 캐파를 고려하여 적절한 수준으로 주제를 선정하도록 신경을 써야겠다.