Small Steps Every Day

매일 천천히 조금씩 앞으로 나아가다.

새싹(SeSAC) | 전Z전능 데이터분석가/#4 데이터 리터러시

[성동3기 전Z전능 데이터 분석가] DAY 31_엑셀 _ RFM 분석 / AI 활용 / 프로젝트 실습 (유튜브 트렌드 분석)

mindata1 2025. 2. 7. 17:25

RFM 분석

  • RFM 분석은 고객의 가치를 평가하기 위한 기법
  • 고객을 R-F-M 차원에서 등급을 매기는 분석
    • Recency : 고객이 얼마나 최근에 구매를 했는가?
    • Frequency : 고객이 얼마나 자주 구매를 했는가?
    • Monetary : 고객이 구매에 얼마나 많은 지출을 했는가?

 

RFM 실습해보기

 

  • 사용 함수
    • =PERCENTRANK.EXC(범위, 특정 값, 1) : 범위 내에서 특정 값의 백분율을 알려주는 함수
      • 그룹 전체에서 백분율을 구해서 RFM 을 각각 점수화 할 때 사용
      • 값이 0~1 사이로 나오기 때문에 *5 으로 점수화 후 Round 함수 사용 권장
    • Round(반올림 할 숫자, 자릿수) : 반올림 함수

 

  • RFM Segment
    • RFM 값을 전부 이어 붙인 값
    • & 기호로 R&F&M 으로 Segment 값 구할 수 있음
    • ex) R(3), F(5), M(2) 인 고객의 RFM Segment = 352
  • FRM Score
    • RFM 을 모두 합한 값
    • ex) R(3), F(5), M(2) 인 고객의 RFM Score = 10
    • Sum 함수 활용

 

 

엑셀에 AI 활용하기

 

Gemini 사용

 

Google AI Studio 를 통해 Gemini 와 실시간 대화하며, 공유된 파일에 대해 데이터 분석 과정을 함께 진행해나갈 수 있다. 

 

[Google AI Studio]

https://aistudio.google.com/prompts/new_chat

 

 

 

프로젝트 실습

캐글에서 찾은 'YouTube Trending Videos Dataset' 으로 엑셀을 활용하여 데이터 전처리, 가공, 분석, 시각화까지 실습해보았다.

 

  • 주제 : 유튜브 트렌드 분석
  • 데이터셋 : 캐글 (1년 전 데이터)

https://www.kaggle.com/datasets/thedevastator/youtube-trending-videos-dataset

 

YouTube Trending Videos Dataset

Exploring YouTube Trending Videos

www.kaggle.com

 

 

데이터 전처리, 가공

 

  • 필요없는 열 삭제
  • '트렌드 등극까지 걸린 시간' 칼럼 추가 : publish date - trending date
  • 'Engagement Rate' 칼럼 추가 : (likes + dislike + comment_count)/views
  • 'Like Ratio' 칼럼 추가 : likes/(likes + dislikes)

 

 

데이터 분석 _ 피벗 테이블

 

  • 카테고리별 뷰(평균)
  • Title 별 좋아요 수(합계)
  • 카테고리별 트렌드 등극 시간(평균)

 

 

데이터 시각화 _ 대시보드

 

위 분석한 피벗테이블을 차트로 만들어 주었다. YouTube 회사의 대표 컬러를 메인으로 삼아 디자인해보았다.

  • 메인 컬러 : YouTube 의 상징 'red'
  • 배경 : 차트 시각적 극대화를 위해 'Dark' 계열

 

 

Reflection

 

파이썬 이후 엑셀... 조금 해봤다고 만만히 생각했었던게 최대 실수이다. 막상 로데이터를 가지고 전처리, 분석, 시각화하여 대시보드까지 단시간안에 해낸다는 것이 쉽지 않았다. 특히, 주제를 선정할 때 자칫 욕심을 부려 복잡하게 생각했다가는 큰 코를 다치게 되는 것이다. 그 당사자가 바로 나, 처음에는 '행복도와 경제력의 관계 분석' 을 주제로 잡으려 했었다. 일단 첫번째 난관이 데이터셋이 여러개 필요하다는 것이었다. 그리고, 그만큼 전처리가 복잡해진다는 것이 두번째 난관.. 2시간 내 대시보드까지 제작하기에는 한계가 있었다. 그래서, 결국 하나의 데이터셋 만으로 분석할 수 있을 만한 주제를 잡았다. 항상 어떤 프로젝트를 진행하려고 할 때, 주어진 시간과 나의 캐파를 고려하여 적절한 수준으로 주제를 선정하도록 신경을 써야겠다.