새싹(SeSAC) | 데이터분석 과정/#5 SQL 실무 프로젝트

[성동3기 전Z전능 데이터 분석가] DAY 44~45 _ SQL프로젝트 _ EDA / 2차 가설 설정

mindata1 2025. 2. 28. 10:44
EDA (1) _ 판매자 성과 분석

 
문제정의: Olist의 셀러(기존+신규)와 소비자를 타겟으로 데이터 분석하여 매출 증대 전략을 도출
 

매출 상위 10% 판매자 vs. 하위 10% 판매자의 차이 분석

 
 
기초 탐색 작업을 위해, 각자 분석할 내용을 분담했고 난 판매자의 성과를 분석을 담당했다. 매출을 중심으로 다루기 때문에 아래와 같이 매출의 기준을 잡고 시작했다.

 

  • 셀러별 총 매출, 주문 건수, 리뷰 점수, 배송료 차이 분석

 
위 집계 데이터를 통해, 상위 10% 판매자의 평균 매출, 오더 개수, 리뷰 점수, 평균 배송비 모두 하위 10% 판매자보다 높다는 것을 확인할 수 있었다. 더 나아가, 상위 10% 판매자가 상대적으로 고가의 고품질 제품을 취급할 가능성이 존재한다는 추론도 가능하다.
 

 
 

높은 생존율을 가진 판매자 특징 분석

 
 
생존한 판매자: 첫 판매 시점 부터 마지막 판매 시점 간의 차이가 6개월 이상인 판매자
 

 
위 시각화 결과를 통해, 생존한 판매자는 매출액이 감소할 수록 판매자 빈도가 급격히 증가함을 알 수 있었다. 이를 통해, 판매를 하지 않는 유령 판매자가 다수 존재하지 않을까 하는 의문이 들었다.
 
 

EDA (2) _ 오더 매출 추이 분석

 
팀 내 협의 결과, 기존 EDA 결과로는 인사이트를 얻기에는 부족하다는 판단이 들었다. 따라서 기존 계획을 변경하여 EDA 시간을 좀 더 가지기로 했다.
 

오더 매출 분석 요약
- 5~8월(가을,겨울)에 매출이 높다
- 월요일에 매출이 가장 높다
- 말일에 갈 수록 매출이 급격히 떨어진다
- 건강,뷰티 매출이 가장 높다

 
기본적인 매출 추이 및 현황에 대해 탐색하고 나니, 급 취소율에 대해서도 궁금해졌다. 그래서, 다시 취소에 관한 추이와 현황을 깊이 파보았다.
 

 

취소율 분석 요약
- 매출이 높은 품목이 취소율도 높다.
- 취소율 가장 높은 품목은 ‘dvds ~’ (정체는 모르겠음)
- 매출이 높은 state 가 취소율도 높다.
- 월요일에 취소율 가장 높다배송 딜레이로 인한 취소는 없다.
- 취소되지 않은 오더는 비교적 배송이 빠른 편이다.
- not_defined 결제수단에서 압도적으로 취소율이 높다.

 
여기까지 팀원과 내용을 공유하다보니, 카테고리 관련해서도 궁금하다는 의견을 받았다. 따라서, 카테고리 관련 추이와 현황을 좀 더 깊이 파보기로 했다.
 

카테고리 심화 분석

 

 

카테고리 심화 분석 요약
- 지역별 패턴: 지역별 매출 편차는 있지만, 인기 카테고리 분포는 비슷함
- 요일별 패턴: 카테고리 전반적으로 주중(월~금) 이 주말보다 매출이 높음 / 요일별 인기 카테고리 분포는 비슷함
- 시간대별 패턴: 새벽(시계), 아침+오후+저녁(건강/미용)
- 계절별/월별 패턴: 겨울(건강/미용) 압도적, 봄에는 전반적으로 매출 떨어짐
- 카테고리별 메트릭: Furniture, garden_tool 는 평균 주문 금액이 낮고 배송 시간이 길며, watches_gift 는 주문 금액이 높고 배송 시간이 짧음.
- 상관관계: 평균 주문 금액(avg_order_value)과 평균 배송 시간(avg_delivery_time) 간 약한 양의 상관관계가 있음(회귀선 기울기 확인).

 
이렇게 하루 종일 EDA 를 하며 지속적으로 들었던 의문은, '왜... 시계_선물 카테고리는 모든 rank 에서 상위권이며, 상대적으로 셀러의 수는 적은데 유독 매출이 높을까?' 였다. 팀 내 의문점을 제시해서 이야기를 나누다 보니, 시계는 고가이기 때문에 누적매출합계 관점에서는 그럴 수 있다는 의견이 있었다. 따라서, 추가적으로 평균 카테고리 단가와 오더 수량도 함께 고려해보았다. DESC 으로 정렬한 것이다.

 
결론적으로, 시계_선물 카테고리는 수요가 많으나 상대적으로 셀러의 수가 낮다는 것을 발견했다. 따라서, 신규 셀러의 영입을 유도하면 좋겠다는 인사이트를 얻을 수 있었다. 더불어, 헬스_뷰티 카테고리의 경우 셀러의 수도 높고, 매출도 높은 포화상태였다. 따라서, 추가 프로모션과 같은 마케팅을 통해 매출을 더 끌어올리면 좋을 것 같다는 인사이트를 얻을 수 있었다.
 
EDA 를 통해 이해도를 높인 상태에서 2차적으로 가설을 더 구체화하거나 변경 혹은 제거하는 과정을 거쳤다.
 

Reflection

 
생각보다 EDA 가 오래걸려서 놀랐다. 범위의 끝이 없다보니, 끊임없이 digging 하게 된 경향이 있었다. 내일은 얼른 전처리를 마치고 가설 검증을 진행해야 제 시간에 마칠 수 있다. 오늘의 나 고생했고, 푹 쉬자 !!