Small Steps Every Day

매일 천천히 조금씩 앞으로 나아가다.

새싹(SeSAC) | 전Z전능 데이터분석가/#3 Python 실무 프로젝트

[성동3기 전Z전능 데이터 분석가] DAY 26 _ 파이썬 실무 프로젝트_데이터 분석, 시각화 및 가설 검증 (회귀분석)

mindata1 2025. 2. 5. 20:35

 

가설 검증

 
데이터 수집부터 전처리, 가공까지의 전 과정은 모두 가설 검증을 위한 준비 과정이었다. 준비가 예상보다 혹독(?)했지만 ‘완료’의 마음가짐으로 밀어붙였다.

최초의 나의 가설은 아래와 같았다.

  • 한국 언론의 영향 → 미국 전기차 기업보다 한국 배터리 기업이 더 주가 타격이 있을 것이다. (산업 간 비교)
  • 한국 언론의 영향 → 중국보다 한국이 더 주가 타격이 있을 것이다. (체제 간 비교)
  • 한국 언론의 영향 → 일본보다 한국이 더 주가 타격이 있을 것이다. (한일전)


위 세 가설은 거시적인 관점이면서도 다각적으로 검증해보려는 의도였으나, 결과는 참혹했다.

가설검증의 의미가 없다..


 첫번째 가설 제외하고는 직관적으로 느껴지듯, 한국의 네이버 뉴스로인한 주가타격이 당연하게도 더 컸다. 따라서, 첫번째 가설에서 좀 더 의미를 찾아보기로 했다.

테슬라가 LG엔솔보다..?


 아무래도 네이버뉴스를 크롤링 했기 때문에, 국내 기업에 더 영향을 끼칠 줄 알았다. 하지만, 테슬라이기 때문인지는 모르겠지만 내 예상은 뒤집어졌다. 그 과정에 대한 검증 과정은 아래와 같다.

날짜별 감성점수와 주가변동 간 관계 시각화


 우선 감성점수와 주가변동을 하나의 시각화 그래프로 생성하여 추이를 비교해보려 했다.

6개월치라 그런지, 뭐가 뭔지 잘 안보여;


 두개의 꺾은선이 이리저리 요동치는 모습이다. 이 그래프를 통해 인사이트를 얻을 수 있을까? No, 얻기 힘들어 보인다. 따라서, 두 기업과 감성점수를 하나의 그래프에, 그리고 11월부터 12월까지만 필터링하여 보기로 했다.

전보다는 낫아졌다.
하지만, 뭘 알 수 있지?


여전히 잘 모르겠다. 단, 테슬라(빨간색)의 경우 대선 영향 때문인지 감성점수를 무시한채 급등하고 있다는 것은 확인할 수 있었다.

가설을 바꿔보자


가설을 테슬라에 초점을 맞춰 재설정 해보기로 했다. 좀 더 명확한 검증을 위해서이다. 일론 머스크의 영향력을 고려하여 뉴스 감성점수가 테슬라 주가변동의 20% 이상을 설명할 것이라는 판단하여 설정했다.

  • 네이버 뉴스 감성점수와 테슬라 주가 변동 간의 회귀분석에서 R2>=0.20 인 경우, 네이버 뉴스 감성점수가 주가 변동에 유의미한 영향을 미친다.

 

회귀분석


 감성점수와 종가 간의 관계를 알아보기 위해 회귀분석을 활용해보기로 했다.  x, y 는 아래와 같다.

X_tesla = tesla_data[['sentiment_score']]
y_tesla = tesla_data['close_price']


회귀 분석을 통해, 회귀 계수와 절편, R^2 값을 얻을 수 있었다. 또한, 시각화를 통해 회귀선과 점 간의 관계를 기업 간 비교해볼 수 있었다.

테슬라가 더..?

 

  Tesla LG 에너지 솔루션
회귀계수 173.3540 45.9329
절편 223.8256 245.0977
R2 0.1447 0.1003

 


위 결과를 통해 테슬라가 LG 에너지 솔루션 보다 감성점수가 주가에 영향을 미친다는 결론이 나왔다. 다만, 회귀모델의 설명력이 두 기업 모두 크지 않은 만큼 감성점수 외 다른 요인이 주가에 더 영향을 미칠 수 있음을 확인했다.

 

테슬라를 더 파헤쳐 보자 !

 


추가적인 시각화를 통해, 감성 점수와 종가 변동 간 관계를 디테일하게 추적해볼 수 있었다.

 

 

2024.10 감성점수 무슨 일..?

 


부정과 긍정의 감성점수가 극단적으로 분포해 있다. 그래서 10월을 필터링하여 자세히 살펴보았다.

 

 

위와 같은 결론을 추가적으로 얻을 수 있었다. 작고 소중한 인사이트이지만, 처음 프로젝트의 주제를 되새겨볼 때 꽤 의미있는 발견이었다.

가설검증을 통해 얻은 최종 결론은 아래와 같다..🥹

 

 

Reflection

 

표면적으로만 알고있던 회귀분석에 대해 실전적으로 활용해볼 수 있어 너무 유익했다. 그리고, 가설을 설정 할 때 좀 더 프로젝트 주제, 목적에 부합하도록 정교하게 신경을 기울였다면 더 좋은 인사이트를 얻을 수 있지 않았을까 하는 후회도 조금 밀려온다. 하지만, 작은 실수들을 거듭해야 딛고서 더 나은 데이터 분석가가 될 수 있다는 마음가짐으로, 이 또한 좋은 경험과 자산이 되었다는 뿌듯함과 함께 가설검증을 마친다.