주제: 한가위 농산물 가격 예측 및 물가 안정 정책 제안
팀명: 야미야미 패밀리
- 매년 높아지는 물가, 그러나 명절날 차례상에 올라가는 농산물은 구매 불가피 → 갈수록 소비자 부담이 커짐
- 주제: 가격 상승에 대비하기 위해 농산물 가격을 예측하는 모델을 설계하고 추석 2주 전 가격을 예측
- 목적: 각 품종에 적합한 가격 예측 모형을 찾고 이를 활용하여 추석 물가 안정에 기여할 수 있는 아이디어 제시
- 필요성: 소비자 부담 완화, 정책 수립 시 근거 필요
※ 수집 범위 : 2015-2023년도, 특산물이 없는 서울 지역, 소매(수입, 도매 제외)
- 예측 목표 - 농산물 가격
- 농산물 변수 - 품목명, 품종명, 산물등급명
- 기상 변수 - 품목별 주 생산지의 평균 온도, 일교차, 평균 강수량, 평균 풍속, 최대 풍속
- 경제 변수 - 주별 경유가격 평균, 품목 주별 소비자물가지수, won/dollar 환율
- 날짜 변수 - 공휴일, 음력
- 과일 - 사과(경상북도), 배(전남 해남)
- 채소 - 시금치(경남 남해), 무(제주도), 애호박(전국)
- 품목의 ‘주요 생산지’의 날씨 데이터만으로 충분히 가격 예측이 가능하다.
- 애호박 가격과 전국 기온 일교차, 전국 최대 순간풍속은 관계가 없다.
- 상급 농산물과 중급 농산물 분리
- 하루에 하나의 품종만 매칭 - 품종이 여러 개인 품목은 일종의 mixture 분포로 간주
- 하루의 하나의 가격만 매칭 - 가격의 중앙값을 매핑
- 일별 데이터와 주별 데이터 각각 생성 - 선형 보간법으로 가격 결측치 채움 (결측치 확인 결과도 같이 보여주기)
- 강수량 범주화 - 0-30mm / 30-80mm / 80mm-
- 데이터 스케일링 - MinMaxScaler, StandardScaler
- 수치형 변수 - 기술통계량
- 범주형 변수 - 전체 데이터 내 품종의 분포, 범주화된 강수량의 빈도, 공휴일 빈도
- 위의 가설과 연관지어 산점도, Heatmap 그려보기
- 가격 곡선 - 가격 변화 패턴, 품종 간 비교, 특이사항
- STL 분해 - 품목별 등급별로 추세성, 계절성 파악 (위의 특이사항과 연관지어 설명 가능)
- Violinplot - 등급 간 시장 규모 비교
- Boxplot - 가격, 기상 데이터, 경제 데이터 이상치 확인
- 날씨 이동평균 (가제)
- 최근 일정 기간의 기상 데이터 경향성을 요약하는 대표값을 선정
- window size
- 일별 데이터 - 과일류는 7, 14, 28일치 / 채소류는 7, 14일치
- 주별 데이터 - 과일류는 1, 2, 4주치 / 채소류는 1, 2주치
- 평균 기온, 일교차, 평균 풍속 - 최근 일정 기간의 평균
- 최대 순간풍속 - 최근 일정 기간의 Q3
- 강수량 - 최근 일정 기간 동안 적게 내린 비율, 적당히 내린 비율
- 코로나 변수
- COVID-19 유행에 따른 영향을 반영하기 위해 해당 기간부터 1로 매핑하는 변수 추가
- Boosting 계열 - GBM, XGBoost, LGBM
- 시계열 모델 - SARIMAX, Prophet, Orbit DLT
- RMSE
- 조정된 RMSE - 음력 기준 7월부터 9월 사이의 잔차에 한해 가중치를 두어 계산
- train data - 2015년 ~ 2021년
- test data - 2022년 ~ 2023년
- 모델별로 사용한 파라미터 ⇒ 파라미터 튜닝
- 전처리 방식과 파라미터의 조합에 따른 성능 비교
- RMSE, 조정된 RMSE를 테이블로 정리
- 각 조합별 test data 2개년치의 잔차를 boxplot으로 나타내 비교
- 품목별로 가장 우수한 전처리×모델 조합 설명
- Q1. 일별 VS 주별 전처리 방식 중 어느 방식이 더 우수한가?
- Q2. 각 품목별로 공통적으로 농산물 가격과 유의한 변수는 무엇인가?
- Q3. 품목마다 다르게 나타나는 유의한 변수는 무엇인가?
- EDA 결과 요약
- 모델링 결과 요약
- 다양한 상황을 가정하여 모델의 예측값과 각 상황별 적정가 비교 ⇒ 다수의 상황에서 예측값이 높다면 정책 시행 필요
- 전년 대비 가격 상승분 비교
- 매년 음력 8월 N일 순서로 나열, 선형회귀
- 경제지표만을 설명변수로, 선형회귀
- 실현 가능성 평가
- 대체재나 보완재의 관계를 고려하지 않음
- 생산지 감소 현상을 반영하지 않음
- 생산량을 고려하지 못함
- 우리가 보고자 하는 모든 품목들의 생산량과 재고에 대한 데이터를 구할 수가 없었다
- 농산물이 생산되어서 모두 판매되기까지의 기간이 천차만별이므로 시계열 모델에 반영하기 어려움