가설 검증
데이터 수집부터 전처리, 가공까지의 전 과정은 모두 가설 검증을 위한 준비 과정이었다. 준비가 예상보다 혹독(?)했지만 ‘완료’의 마음가짐으로 밀어붙였다.
최초의 나의 가설은 아래와 같았다.
- 한국 언론의 영향 → 미국 전기차 기업보다 한국 배터리 기업이 더 주가 타격이 있을 것이다. (산업 간 비교)
- 한국 언론의 영향 → 중국보다 한국이 더 주가 타격이 있을 것이다. (체제 간 비교)
- 한국 언론의 영향 → 일본보다 한국이 더 주가 타격이 있을 것이다. (한일전)
위 세 가설은 거시적인 관점이면서도 다각적으로 검증해보려는 의도였으나, 결과는 참혹했다.
가설검증의 의미가 없다..
첫번째 가설 제외하고는 직관적으로 느껴지듯, 한국의 네이버 뉴스로인한 주가타격이 당연하게도 더 컸다. 따라서, 첫번째 가설에서 좀 더 의미를 찾아보기로 했다.
테슬라가 LG엔솔보다..?
아무래도 네이버뉴스를 크롤링 했기 때문에, 국내 기업에 더 영향을 끼칠 줄 알았다. 하지만, 테슬라이기 때문인지는 모르겠지만 내 예상은 뒤집어졌다. 그 과정에 대한 검증 과정은 아래와 같다.
날짜별 감성점수와 주가변동 간 관계 시각화
우선 감성점수와 주가변동을 하나의 시각화 그래프로 생성하여 추이를 비교해보려 했다.
6개월치라 그런지, 뭐가 뭔지 잘 안보여;
두개의 꺾은선이 이리저리 요동치는 모습이다. 이 그래프를 통해 인사이트를 얻을 수 있을까? No, 얻기 힘들어 보인다. 따라서, 두 기업과 감성점수를 하나의 그래프에, 그리고 11월부터 12월까지만 필터링하여 보기로 했다.
전보다는 낫아졌다.
하지만, 뭘 알 수 있지?
여전히 잘 모르겠다. 단, 테슬라(빨간색)의 경우 대선 영향 때문인지 감성점수를 무시한채 급등하고 있다는 것은 확인할 수 있었다.
가설을 바꿔보자
가설을 테슬라에 초점을 맞춰 재설정 해보기로 했다. 좀 더 명확한 검증을 위해서이다. 일론 머스크의 영향력을 고려하여 뉴스 감성점수가 테슬라 주가변동의 20% 이상을 설명할 것이라는 판단하여 설정했다.
- 네이버 뉴스 감성점수와 테슬라 주가 변동 간의 회귀분석에서 R2>=0.20 인 경우, 네이버 뉴스 감성점수가 주가 변동에 유의미한 영향을 미친다.
회귀분석
감성점수와 종가 간의 관계를 알아보기 위해 회귀분석을 활용해보기로 했다. x, y 는 아래와 같다.
X_tesla = tesla_data[['sentiment_score']]
y_tesla = tesla_data['close_price']
회귀 분석을 통해, 회귀 계수와 절편, R^2 값을 얻을 수 있었다. 또한, 시각화를 통해 회귀선과 점 간의 관계를 기업 간 비교해볼 수 있었다.
테슬라가 더..?
Tesla | LG 에너지 솔루션 | |
회귀계수 | 173.3540 | 45.9329 |
절편 | 223.8256 | 245.0977 |
R2 | 0.1447 | 0.1003 |
위 결과를 통해 테슬라가 LG 에너지 솔루션 보다 감성점수가 주가에 영향을 미친다는 결론이 나왔다. 다만, 회귀모델의 설명력이 두 기업 모두 크지 않은 만큼 감성점수 외 다른 요인이 주가에 더 영향을 미칠 수 있음을 확인했다.
테슬라를 더 파헤쳐 보자 !
추가적인 시각화를 통해, 감성 점수와 종가 변동 간 관계를 디테일하게 추적해볼 수 있었다.
2024.10 감성점수 무슨 일..?
부정과 긍정의 감성점수가 극단적으로 분포해 있다. 그래서 10월을 필터링하여 자세히 살펴보았다.
위와 같은 결론을 추가적으로 얻을 수 있었다. 작고 소중한 인사이트이지만, 처음 프로젝트의 주제를 되새겨볼 때 꽤 의미있는 발견이었다.
가설검증을 통해 얻은 최종 결론은 아래와 같다..🥹
Reflection
표면적으로만 알고있던 회귀분석에 대해 실전적으로 활용해볼 수 있어 너무 유익했다. 그리고, 가설을 설정 할 때 좀 더 프로젝트 주제, 목적에 부합하도록 정교하게 신경을 기울였다면 더 좋은 인사이트를 얻을 수 있지 않았을까 하는 후회도 조금 밀려온다. 하지만, 작은 실수들을 거듭해야 딛고서 더 나은 데이터 분석가가 될 수 있다는 마음가짐으로, 이 또한 좋은 경험과 자산이 되었다는 뿌듯함과 함께 가설검증을 마친다.
'새싹(SeSAC) | 전Z전능 데이터분석가 > #3 Python 실무 프로젝트' 카테고리의 다른 글
[성동3기 전Z전능 데이터 분석가] DAY 27~28 _ 파이썬 프로젝트 발표, 회고 (2) | 2025.02.06 |
---|---|
[성동3기 전Z전능 데이터 분석가] DAY 25 _ 파이썬 실무 프로젝트_뉴스 데이터 전처리 / 번역, 감성분석 _ Vader/FinBERT (0) | 2025.01.27 |
[성동3기 전Z전능 데이터 분석가] DAY 24 _ 파이썬 실무 프로젝트_데이터 수집_네이버 뉴스 데이터 크롤링, 웹스크래핑 (0) | 2025.01.27 |
[성동3기 전Z전능 데이터 분석가] DAY 23 _ 파이썬 실무 프로젝트_데이터 수집_주가, 야후 뉴스 기사 크롤링 (0) | 2025.01.23 |
[성동3기 전Z전능 데이터 분석가] DAY 22 _ 파이썬 실무 프로젝트 _ 팀빌딩 /문제정의 (0) | 2025.01.22 |