연구보고서
- 저자
- 김미애, 박경원, 이성규, 이윤영, 이진영, 정유란
- 작성일
- 2024.12.24
- 조회
- 25
- 요약
- 목차
최근 엔비디아, 화웨이, 구글 딥마인드, 유럽중기예보센터(ECMWF, European Centre for Medium-Range Weather Forecasts) 등 세계적인 기업과 연구소를 중심으로 인공지능 기반 중 기 날씨 예측 모델(15일 이내)이 활발히 개발되고 있다. 주요 사례로는 엔비디아의 SFNO (Spherical Fourier Neural Operators) 기반 FourCastNet, 화웨이의 Swin-Transformer 기반 Pangu-Weather, ECMWF의 GNN (Graph Neural Network) 기반 AIFS, 중국 푸단 대학의 U-Transformer 기반 FuXi 모델 및 S2S 예측용 FuXi-S2S, 그리고 구글 딥마인드의 GNN 기반 GraphCast와 디퓨전 모델 기반 GenCsat 모델이 있다. 대부분이 15일 이내 중기 날씨 예측에 국한되어 있으며 계절 내 및 계절 예측으로의 확장은 미흡한 상황이다. 또한 인공지능 학습에 는 대량의 자료가 필요하지만, 주요 기후 자료로 사용되는 ECMWF ERA-5 자료는 75년 정도의 자료만 이용 가능하다. 이를 학습, 검증, 테스트용으로 데이터셋을 구축하면 실제 학습에 사용되는 자료는 부족하다는 한계가 있다.
기후위기로 인하여 응용기후분야에 정확도 높은 계절 내 예측자료의 중요성이 커지고 있다. 이러한 계절 내 예측자료는 물리적 기반으로 다양한 대기 및 해양의 상호작용을 수치모델만으로 예측하기 어려운 문제에 직면하고 있다. 이러한 어려움을 극복하기 위하여 자료 확장과 입력자료에서 보다 중요한 패턴과 특징에 가중치를 줘서 정확도를 개선하고자 하는 Attention U-Net 모델과 계절내 예측 모델 뿐만 아니라 관측자료를 기반으로 Filter, Wrapper, Embedded 등의 기법을 이용하여 변수가 가지고 있는 특징들을 찾아내어 다양한 입출력 시스템에 기반한 민감도 분석을 실시하였다. 모델/관측자료의 변수의 선택으로 일부 변수조합으로 계절내 예측보다 정확도가 향상됨을 확인할 수 있었다. GUI 기반 입출력 시스템은 입력자료 생성과 민감도 분석을 용이하게 하여 최적화된 인공지능 기법 개발에 기여하였다. 본 연구는 계절내 예측 정확도 향상을 위한 기초 자료로 활용될 수 있으며, 향후 딥러닝 모델의 추가적인 개선이 필요하다.
최근 신경망 모델의 발전과 딥러닝 기술의 응용은 다양한 산업과 연구 분야에서 주목받고 있으며, 기후 예측에서도 활용 가능성이 증가하고 있다. 특히, S2S(Sub-seasonal to Seasonal) 예측에서는 데이터 전처리 및 모델 성능 개선의 필요성이 강조되고 있다. 본 연구는 앙상블 기법 (보팅, 배깅, 부스팅, 스태킹)을 활용하여 S2S 일 최고기온의 예측 성능을 개선하는 데 초점을 맞췄다. 선정된 각각의 앙상블 기법의 특성과 성능을 분석하였고 선례 연구(6단계 1-2차년)에 서 구축한 신경망 모델들, CNN, CNN-LSTM, U-Net, Attention U-Net, Residual U-Net을 앙상블 멤버 모델로 구성하였고 표준화를 통해 훈련자료를 전처리하고 각각의 앙상블 기법에서 훈련 및 예측 평가하였다. 연구 결과, ECMWF-S2S TMAX 예측에서는 모든 앙상블 기법의 ACC가 향상되었으며, 특히 배깅이 가장 우수한 성능을 보였다. KMA(GloSea5)-S2S TMAX에서는 스태킹과 부스팅이 선행예측 시간 규모 전체의(1주에서 4주) 예측 성능을 개선하였으나, 보팅과 배깅은 4주(20일) 이후에서만 효과적이었다. 공간 분포 평가에서도 ECMWF에서 앙상블 기법 적용 후 ACC는 선행예측 1주에서 4주 모두 개선되었고, 특히 배깅의 ACC 공간 분포는 훈련 전 ACC 공간 분포와의 차이가 대부분 0으로 관찰되었다. 관심 즉 특정 지역(예, 남한 격자 4지점) 에 대한 평가에서 ECMWF보다 KMA에서 성능 향상을 보였다. 이는 앙상블 기법이 훈련 자료 및 지역 특성에 따라 다르게 작용할 수 있음을 시사한다. 본 연구는 S2S 예측의 안정성과 성능을 개선하기 위해 앙상블 기법의 유용성을 입증하였으며, 이를 통해 S2S의 일 최고기온의 3-6 주 예측의 정확도 향상과 실용성(예, 이상고온 예측 성능 개선 등)을 높이는데 기여할 수 있을 것으로 기대한다.
2차년도(2023)에 준지도학습 기법을 활용하여 MJO 위상을 분류하는 이미지 기반 인공지능 모델이 개발되었다. 이를 위해 먼저 다양한 MJO 지수에 따른 입력 변수 조합, 모델 구조, 훈련 데이터 분리 방법 등을 테스트해 지도학습 기반의 최적 MJO 위상 분류 모델을 구축했다. 준지도학습 기반 모델은 라벨링된 데이터가 적은 상황에서도 중요한 기후 패턴을 효과적으로 학습하며, 지도학습 모델과 유사하거나 더 높은 정확도를 보이는 사례를 확인했다. 자료증강 기법이 기후 데이터의 공간적 특성에 맞게 적용될 때 모델 성능을 향상시키는 것을 확인했다. MJO 위상 분류에서 수평 반전은 정확도를 낮추지만, 수직 반전은 성능을 향상시켰다. 3차년도(2024) 에는 준지도학습을 확장하여 선행시간별 RMM1과 RMM2 지수를 예측하는 인공지능 모델을 개 발했다. ResNet-18을 수정한 모델에 U200, U850, OLR, VP, TS, TCWV, hadvect 기후 변수의 편차와 배경장을 함께 활용하여, BCOR 0.5 기준 최대 약 22일까지 예측 성능을 달성했다. MJO 진폭을 손실함수에 포함해 진폭 관련 오류를 개선하여 인공지능 기반 MJO 연구에서 도메인에 특화한 모델 조정의 중요성을 확인하였다. 또한 해석가능한 인공지능 기법을 통해 바람장의 배 경 상태와 수증기 편차가 MJO 예측에 중요한 영향을 미친다는 점을 확인했다. 나아가 RMM 단정예측 인공지능 모델을 기반으로 초기장 섭동과 모델 파라미터 섭동을 활용해 확률예측 모델을 개발했다. Perlin noise를 이용한 초기장 섭동과 MC dropout을 적용한 모델 섭동을 통한 앙상블 분산을 분석한 결과, Perlin noise이 선행시간이 길어질수록 분산을 가장 크게 증가시켰으나, 일부 사례에서는 분산 증가가 제한적이었다. 이는 인공지능 모델이 평균에 수렴하는 특성으로 앙상블 확산을 산출하는데 어려움이 있을 수 있음을 시사한다. 향후 연구에서는 최신의 인공지능 모델에 배경장과 편차 정보를 통합 활용하고 고해상도 데이터를 활용해 기후의 공간적 패턴과 특성을 더욱 정밀하게 확인하고 예측력을 향상시키는 방안을 모색할 예정이다.
계절 내 및 계절 시간 규모의 기온확률 예측성을 높이기 위해 딥러닝 기반의 동아시아지역 3-6주 기온 확률예측 모델을 개발하고자 하였다. U-NET 아키텍처 기반으로 어텐션 메커니즘, 설명가능한 인공지능(XAI, eXplainable Artificial Intelligence) 등을 활용하여 1개월 기온 예측 모델을 구축하고, 이 모델을 기초로 Atmosphere-Land Surface-Ocean (ALO) 시스템을 기초로 입력자료 확장을 고려한 모델, 최신 딥러닝 아키텍처를 이용한 기온 예측 모델, 앙상블 학습 기법을 이용한 기온 예측 모델, N 스텝 예측 방법을 이용한 기온 예측 모델, 재학습 방법을 이용한 기온 예측 모델 등 동아시아지역 3-6 기온확률 예측을 위해 총 31개 모델을 구축하고 ECMWF S2S 모델과 HSS 방법으로 비교 평가하였다. 모델 설계에 사용한 입력 변수는 ERA-5 재분석자료의 T2M(대기)과 SST 자료(해양), MODIS와 AVHRR 자료로 구축한 NDVI 자료(지면)를 이용하였다. 이 모델들은 14일 입력자료로 미래 1일을 맞추는 모델로, 3-6주 기온확률 예측을 위해 순환 예측(rolling prediction) 기법을 이용하여 ECMWF S2S 모델의 forecast와 hindcast 1-2주 예측자료를 입력자료로 하는 기온확률 예측 체계를 구축하였다. 모델의 입력 변수 중 NDVI 자료는 T2M과 SST 변수는 달리 1982~2019년 자료만 구축된 데이터셋을 이용하였기 때 문에 모델의 평가 기간을 2018~2019년과 2018~2022년으로 나누어 수행하였다. 평가기간 2018~2022년은 NDVI 자료는 2020년 이후 자료는 없기 때문에 2019년 자료를 이용하였다. 평가결과, 평가기간 2018~2019년은 1위 DL-SE-7+SST+NDVI, 공동 2위 DL-SE+FLT2+BTLNCK-7, NM-SE-7, EM-NP-14, nP-DL-SE+BIGDAA+FLT2+BTLNCK-14-NM-SE-7+SST+NDVI, RL-DL-SE-14+SST+NDVI였으며, ECMWF는 25위였다. 평가기간 2018~2022년은 전체 평가 기간 에서 총 32개 모델(ECMWF 포함) 중 1위 DL-SE-14, 2위 DL-SE+BIGDATA+FLT2+BTLNCK-14, 3위 DL-SE+BIGDATA-14였으며, ECMWF는 18위였다. 엘니뇨 발생 시기는 공동 1위 DL-SE-7+SST+NDVI, DL-SE+FLT2+BTLNCK-7. 3위 DL-SE+BIGDATA-14이며 ECMWF 는 공동 7위였다. 2018~2019년은 ALO 시스템을 기초로 입력자료 확장을 고려한 모델들이 주로 좋은 예측성을 보였다. 이는 지면자료(NDVI)와 해양자료(SST) 자료가 4~6주 예측에 긍정적인 영향을 준 것으로 판단된다. 반면 2018~2022년은 NDVI 자료 구축 기간이 2018~2019년으로 2020년부터는 2019년 자료를 이용하였기 때문에 T2M 자료만 이용한 모델에 비해 상대적으로 예측성이 떨어지는 경향을 보였다. ALO 시스템 관점에서 계절 내 및 계절 기온 예측에서 SST와 NDVI 자료가 모델의 예측성에 긍정적인 영향을 미치는 것으로 나타났다.
단순한 인공지능모델에 간결한 자료강화기법을 적용하여도 월별 기후예측을 개선할 수 있을지 가능성을 타진하고자 하였다. 합성곱신경망모델(CNN)을 구축하여 여름철과 겨울철, 평균 기온과 강수(SPI1) 예측에 대한 Cutmix 자료강화의 개선 성능을 평가하였다. 자료강화한 경우 훈련 과정에서의 검증 정확도는 여름철, 겨울철 그리고 평균기온 및 강수(SPI1)에 대해 모두 증가하였으며, Monte Carlo Dropout 적용하여 살펴본 결과 최종 예측 결과의 epistemic 불확실성은 감소하였다. 그러나 월별로 보았을 때 평균기온은 1월(LT2), 2월(LT3), 8월(LT3), 그리고 강수(SPI1)는 7월(LT2), 8월(LT3), 12월(LT1)의 경우에만 개선이 관찰되었다. Confusion matrix를 통해 개별 예측 결과를 전체적으로 검토하였는데, 자료강화한 경우 대부분의 경우 적중률이 증가하였음을 확인하였다. 결론적으로 평균기온이나 강수(SPI1) 예측 부진의 주요 원인이 자료 부족이더라도 지나치게 단순한 모델로는 자료강화의 효과가 제한적일 수 있으나 전반적으로 개 선의 효과를 확인할 수 있었다.
인공지능 기술의 계절 예측 분야 활용성을 탐색하고자 다중모델앙상블(Multi-Model Ensemble, MME) 예측, 구체적으로 동아시아 3개월 평균 강수에 대한 후처리모델 개발 업무를 수행하였다. 이를 위해 성능이 우수할 것으로 추정되는 앙상블만을 선별하는 방식 (SubSampling, SS), 예측장 오차를 제거하는 방식(DeBiasing, DB), 전이 학습 기반으로 강수를 진단(Transfer-Learning based Diagnosing, TLD) 방식으로 인공지능 모델을 구현하고, 전통적인 편차보정 방식(Quantile Mapping, QM)를 기초선으로 성능 개선 평가를 진행하였다. 테스트 기간 2023년 12 계절 전체에서 많은 후처리 모델이 현업 APCC-MME 성능을 넘어섰고, 구체적으로 DB가 7개, SS가 3개, TLD/QM이 각각 1개 시즌에서 최고 성능을 보여 인공지능 기술 적용 의 타당성/우수성을 확인하였다. 하지만 후처리 방식별, 계절별, 버전별로 성능 변동성이 매우 크기 때문에, 이러한 불확실성을 극복하고자 후처리 모델에 대해서도 MME 기법을 적용해 보았다. 성능면에서 개별 후처리 모델들보다 전반적으로 우수하고, 현업 역학 모델 MME에 비해 서는 약 40% ACC 개선을 확인할 수 있었다. 최종적으로 다중 후처리 모델 합산 예측장과 과거 성능 평가 정보에 대한 통합 표출 모듈을 개발함으로써 인공지능의 도움을 받는 새로운 형태의 APCC-MME 원형을 제시하였다.