논문리뷰/기후

[논문리뷰] Development of a daily PM 10 and PM 2.5 prediction system using a deep long short-term memory neural network model

LSTM을 이용해 PM10과 PM2.5를 daily prediction.

Data pre-processing

데이터 변수
- 오염 농도: PM10, PM2.5, SO2, NO2, O3, CO
  - PM measured by β-ray absorption and a gravimetric method.
  - SO2, CO, NO2, and O3 were measured by pulse ultraviolet fluorescence, a nondispersive infrared sensor, chemiluminescence, and ultraviolet methods.
- 기상 변수: 기온, 풍향, 풍속, 1시간 누적 강수량, 상대습도
선정 기준
- 측정지점 간 거리가 가까운 곳: 서울 2곳, 대전, 광주, 대구, 울산, 부산 총 7곳 선정.(오염 공기 측정지와 기상 변수 측정지는 같지 않고 최대한 가까운 지점의 데이터를 사용)
- 결측치가 최소인 지점
  - 2013년쯤에는 결측치가 많아, 2014년 1월~2016년 4월까지를 학습에 활용.
  - KORUS-AQ 기간인, 2016년 5월 1일부터 2016년 6월 11일을 테스트.
결측치
- 결측치는 0.7%~13.9% 사이 분포.
- 오염 농도: pretrained LSTM 모델로 refine함. 기상 변수: interpolation
- 0~1 사이 값으로 normalize함.
- dust event period의 데이터는 학습에 사용하지 않음.(통상적이지 않은 noise가 될 수 있으므로 제외함)

Model

3 to 5 LSTM layers (hidden nodes 100)
ReLU, cost function: MSE, Adam

3D CTM simulation

성능 비교를 위한 전통적 방식의 기후 모델.

- Domain 크기: horizontal resolution of 15 km × 15 km with 27 sigma vertical levels.
- Anthropogenic emissions(인공적 방출): KORUS v1.0 emission inventory. 이 inventory는 3가지 emission inventory로 이뤄짐.
  - CREATE (Comprehensive Regional Emission inventory for Atmospheric Transport Experiment)
  - MICS-Asia (Model Inter-Comparison Study for Asia)
  - SEAC4RS (Studies of Emissions and Atmospheric Composition, Clouds, and Climate Coupling by Regional Surveys)
- Biogenic emissions(자연적 방출): MEGAN v2.1 (Model of Emissions of Gases and Aerosols from Nature) simulations
  - FINN (Fire INventory from NCAR): biomass burning emissions
- Lateral boundary conditions: MOZART-4 model simulations
- Data assimilation: 이에 활용된 3가지 dataset
  - Communication, Ocean and Meteorological Satellite (COMS) Geostationary Ocean Color Imager (GOCI) aerosol optical depth (AOD)
    - GOCI는 spatial resolution이 500m*500m, 매 시간 spectral images를 00:00~07:00 UTC까지 측정.
  - ground-based observations in China
  - AIR KOREA observations in South KoreaCMAQ model v5.1 적용.

Result

measure: IOA, RMSE, MB, MNGE, MNB

CMAQ는 DA를 했을 때 성능이 더 좋음. 다만, CMAQ의 결과를 LSTM의 결과와 직접적으로 비교하기는 어려움.

CTM은 grid box안의 대기 오염 물질의 평균 농도를 계산하는데, real world에서는 grid box 내부의 대기 오염 물질 농도는 주변의 지역 소스에 근접하여 (매우) 가변적일 수 있기 때문.

즉, 실제 gird box안의 오염 농도는 uniform 할 수 없기 때문. 이를 'sub-grid variability'라 칭함.

따라서, 직접적 비교보다 참조적으로 비교할 수 있는 수단으로 보면 되겠다.

전체적으로 LSTM의 성능이 더 좋음.

대구, 울산, 부산에서는 LSTM이 더 좋은데, 서울에서는 DA를 적용한 CMAQ가 더 좋다. 그 이유는 DA 할 때, 에어코리아의 관측치를 활용하는데, 서울 지역의 관측지점이 더 많고 빽빽하기 때문인 것으로 보임.

25일~28에는 전국적으로 수치가 높은데 이는 오염 물질이 중국으로부터 편서풍으로 인한 장거리 이동이 원인이다(직접적 증거는?). 이 기간동안 LSTM 모델의 오류가 더 높은데, 이는 weight와 bias가 중국의 영향을 받지 않는 데이터를 반영했는데, 이 기간은 아니기 때문으로 보임.

frequency of high-PM 10 and high-PM 2.5 events, high-particulate-matter episodes이게 뭐지.

Dependence on input parameters

온도와 풍향이 일반적으로 영향이 큼. RN, RNH, CO는 일반적으로 영향이 적음.

예측에 대한 의존도가 낮은 변수는 대기에서 빠르게 변화하는 변수로 그 효과가 훈련된 모델에 거의 통합되지 않음.

보완점

더 많은 입력 변수
결측치 성능에 대한 연구: 일부러 결측치 만들고 실제 정답과 비교.
차례대로 input을 넣는게 아니라 shuffle 해서 넣는 건 어떤가.

의문점

관측 지점 간의 거리를 정리한 정보가 있나?
KORUS-AQ는 서울 지역을 측정한건데 이에 맞춘 이유는?
이 기간에 맞추니까 SPLIT비율이 약 28:1인데 너무 언밸런스한 거 아님?
각 지점이 얼마나 결측됐는지에 대한 정보 있나?
refine 할 때 기온 예측과 같은 모델 사용됐나?
왜 24*12로 입력이 fix된게 아니라 24 × 11 and/or 24 × 12 이렇게 쓰여있나?
lstm의 input에 넣기 위해 3차원 벡터 행렬로 바꾼다고 쓰여있는데, batch 때문에 그런 거지?
왜 똑같이 pretrain model로 결측치를 보완하지 않고 하나는 모델, 하나는 interpolation을 사용했나?
dust event period를 선정한 기준은? 예를 들어 황사 경보가 뜬날. 각 년마다 같은 기간인가? 아님 어떤 기준치를 넘는 날의 데이터를 제외했나?
예를 들어 3월을 제외했다면 2월 말을 학습 데이터 4월 초를 테스트 데이터가 된 건가?
이전 논문에서는 황사 기간을 제외했는데 이후 논문에는 왜 포함시킨 건가?
다른 상세 학습 파라미터에 대한 정보(lr 등)
중국 지역의 ground-based monitoring site 정보를 어디서 받을 수 있나?
inventory가 정확히 지칭하는 건 뭐냐

출처: https://acp.copernicus.org/articles/19/12935/2019/

'논문리뷰 > 기후' 카테고리의 다른 글

[논문리뷰] A Long Short-Term Memory (LSTM) Network forHourly Estimation of PM 2.5 Concentration in Two Cities of South Korea(2020) (0)	2021.12.27
[논문 insight] 오염 요인별 지역선정을 통한 대기-기상자료의 미세먼지 인과관계 검증(국내, 2017) (0)	2021.12.27

Contents

새소식

인기 검색어

[논문리뷰] Development of a daily PM 10 and PM 2.5 prediction system using a deep long short-term memory neural network model

'논문리뷰 > 기후' 카테고리의 다른 글

당신이 좋아할만한 콘텐츠

티스토리툴바