Skip to content

제5회 통계최강자전 - 한가위 농산물 가격 예측 및 물가 안정 정책 제안

Notifications You must be signed in to change notification settings

HyeonseokSim/Chuseok_Price_Prediction

Repository files navigation

제5회 통계최강자전

주제: 한가위 농산물 가격 예측 및 물가 안정 정책 제안
팀명: 야미야미 패밀리

1. 서론

분석 배경

  • 매년 높아지는 물가, 그러나 명절날 차례상에 올라가는 농산물은 구매 불가피 → 갈수록 소비자 부담이 커짐

주제 선정

  • 주제: 가격 상승에 대비하기 위해 농산물 가격을 예측하는 모델을 설계하고 추석 2주 전 가격을 예측
  • 목적: 각 품종에 적합한 가격 예측 모형을 찾고 이를 활용하여 추석 물가 안정에 기여할 수 있는 아이디어 제시
  • 필요성: 소비자 부담 완화, 정책 수립 시 근거 필요

2. 데이터 소개

사용 변수

※ 수집 범위 : 2015-2023년도, 특산물이 없는 서울 지역, 소매(수입, 도매 제외)

  • 예측 목표 - 농산물 가격
  • 농산물 변수 - 품목명, 품종명, 산물등급명
  • 기상 변수 - 품목별 주 생산지의 평균 온도, 일교차, 평균 강수량, 평균 풍속, 최대 풍속
  • 경제 변수 - 주별 경유가격 평균, 품목 주별 소비자물가지수, won/dollar 환율
  • 날짜 변수 - 공휴일, 음력

분석 대상

  • 과일 - 사과(경상북도), 배(전남 해남)
  • 채소 - 시금치(경남 남해), 무(제주도), 애호박(전국)

가설 수립

  1. 품목의 ‘주요 생산지’의 날씨 데이터만으로 충분히 가격 예측이 가능하다.
  2. 애호박 가격과 전국 기온 일교차, 전국 최대 순간풍속은 관계가 없다.

3. 데이터 탐색

Feature Engineering

  • 상급 농산물과 중급 농산물 분리
  • 하루에 하나의 품종만 매칭 - 품종이 여러 개인 품목은 일종의 mixture 분포로 간주
  • 하루의 하나의 가격만 매칭 - 가격의 중앙값을 매핑
  • 일별 데이터와 주별 데이터 각각 생성 - 선형 보간법으로 가격 결측치 채움 (결측치 확인 결과도 같이 보여주기)
  • 강수량 범주화 - 0-30mm / 30-80mm / 80mm-
  • 데이터 스케일링 - MinMaxScaler, StandardScaler

EDA (1) 기술통계량

  • 수치형 변수 - 기술통계량
  • 범주형 변수 - 전체 데이터 내 품종의 분포, 범주화된 강수량의 빈도, 공휴일 빈도

EDA (2) 데이터 시각화

  • 위의 가설과 연관지어 산점도, Heatmap 그려보기
  • 가격 곡선 - 가격 변화 패턴, 품종 간 비교, 특이사항
  • STL 분해 - 품목별 등급별로 추세성, 계절성 파악 (위의 특이사항과 연관지어 설명 가능)
  • Violinplot - 등급 간 시장 규모 비교
  • Boxplot - 가격, 기상 데이터, 경제 데이터 이상치 확인

파생변수 정의

  1. 날씨 이동평균 (가제)
    • 최근 일정 기간의 기상 데이터 경향성을 요약하는 대표값을 선정
    • window size
      • 일별 데이터 - 과일류는 7, 14, 28일치 / 채소류는 7, 14일치
      • 주별 데이터 - 과일류는 1, 2, 4주치 / 채소류는 1, 2주치
    • 평균 기온, 일교차, 평균 풍속 - 최근 일정 기간의 평균
    • 최대 순간풍속 - 최근 일정 기간의 Q3
    • 강수량 - 최근 일정 기간 동안 적게 내린 비율, 적당히 내린 비율
  2. 코로나 변수
    • COVID-19 유행에 따른 영향을 반영하기 위해 해당 기간부터 1로 매핑하는 변수 추가

4. 모델링

모델 선정

  • Boosting 계열 - GBM, XGBoost, LGBM
  • 시계열 모델 - SARIMAX, Prophet, Orbit DLT

평가 지표

  • RMSE
  • 조정된 RMSE - 음력 기준 7월부터 9월 사이의 잔차에 한해 가중치를 두어 계산

모델 훈련

  • train data - 2015년 ~ 2021년
  • test data - 2022년 ~ 2023년

모델 평가

  • 모델별로 사용한 파라미터 ⇒ 파라미터 튜닝
  • 전처리 방식과 파라미터의 조합에 따른 성능 비교
    • RMSE, 조정된 RMSE를 테이블로 정리
    • 각 조합별 test data 2개년치의 잔차를 boxplot으로 나타내 비교

5. 결론

모델 평가 결과

  • 품목별로 가장 우수한 전처리×모델 조합 설명
  • Q1. 일별 VS 주별 전처리 방식 중 어느 방식이 더 우수한가?
  • Q2. 각 품목별로 공통적으로 농산물 가격과 유의한 변수는 무엇인가?
  • Q3. 품목마다 다르게 나타나는 유의한 변수는 무엇인가?

분석 결론

  • EDA 결과 요약
  • 모델링 결과 요약

모델 활용방안

  • 다양한 상황을 가정하여 모델의 예측값과 각 상황별 적정가 비교 ⇒ 다수의 상황에서 예측값이 높다면 정책 시행 필요
    1. 전년 대비 가격 상승분 비교
    2. 매년 음력 8월 N일 순서로 나열, 선형회귀
    3. 경제지표만을 설명변수로, 선형회귀
  • 실현 가능성 평가

분석의 한계점

  • 대체재나 보완재의 관계를 고려하지 않음
  • 생산지 감소 현상을 반영하지 않음
  • 생산량을 고려하지 못함
    • 우리가 보고자 하는 모든 품목들의 생산량과 재고에 대한 데이터를 구할 수가 없었다
    • 농산물이 생산되어서 모두 판매되기까지의 기간이 천차만별이므로 시계열 모델에 반영하기 어려움

About

제5회 통계최강자전 - 한가위 농산물 가격 예측 및 물가 안정 정책 제안

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published