Dự báo khả năng rét đậm, rét hại và mưa lớn ở khu vực Bắc Bộ dựa trên SOM (Self-Organizing Map)

Trong khuôn khổ đề tài cấp Bộ về “Nghiên cứu đổi mới công nghệ dự báo các đợt rét đậm, rét hại, mưa lớn trong mùa đông ở khu vực phía bắc việt nam hạn đến 10 ngày dựa trên quy luật hoạt động của dòng xiết cận nhiệt đới” do TS. Trịnh Hoàng Dương làm chủ nhiệm, nhóm thực hiện đề tài đã dự báo khả năng rét đậm, rét hại ở khu vực Bắc Bộ dựa trên SOM.

Self-Organization Map (SOM) là một nhánh của mạng thần kinh nhân tạo (ANN), trong đó sử dụng thuật toán học không giám sát (unsupervised) để tạo nên bản đồ của 1 tập số liệu nào đó theo không gian, nhằm biểu diễn trực quan nhất tập số liệu này. Điểm khác biệt trong quan hệ giữa các nơ ron trong 2 lớp của SOM so với các mạng ANN khác là chỉ có một giá trị đầu ra cuối cùng, trong khi mạng ANN với n đầu vào có thể có m đầu ra. Quá trình học vủa SOM lặp đi lặp lại để cập nhật dần dần các nút dữ liệu trong bản đồ đầu ra cho đến khi hội tụ ổn định đại diện cho không gian đầu vào. Mỗi bước học của SOM bắt đầu bằng việc chọn ngẫu nhiên một vectơ trọng số đầu vào. Một nút trong lớp đầu vào được tìm kiếm bằng cách cạnh tranh với nhau trong bản đồ đầu ra để tìm ra nút “chiến thắng, winning node” hoặc “đơn vị phù hợp nhất” (BMU, Best Matching Unit ) phù hợp nhất với vectơ đầu vào. Tiếp theo, quá trình học tiếp tục làm cho BMU và các lân cận của nó gần với vectơ đầu vào hơn theo cách bị chi phối bởi tốc độ học và hàm lân cận. Sau đó, bản đồ được cấu hình lại để chuyển đổi hình thế đầu vào nhiều chiều thành mảng hai chiều, tạo điều kiện thuận lợi cho việc phát hiện cấu trúc và mối quan hệ qua lại của dữ liệu. Bản đồ SOM với một lượng lớn thông tin có thể được lưu trữ trong các giá trị trọng số có đặc điểm tương tự trong các vectơ đầu.

SOM có 2 đặc điểm nổi bật nhất đó là khả năng chuyển tập dữ liệu nhiều chiều phức tạp về tập dữ liệu hai chiều và bảo toàn quan hệ lân cận của tập dữ liệu đầu vào (neighborhood preservation). Bảo toàn quan hệ lân cận có nghĩa là các mẫu dữ liệu gần nhau trong không gian ban đầu (dữ liệu đầu vào) sẽ được ánh xạ vào các nơ-ron lân cận trên lưới SOM. Điều này có ý nghĩa rằng các điểm dữ liệu gần nhau trong không gian ban đầu sẽ được gán cho các nơ-ron gần nhau trên lưới SOM. Chính nhờ 2 đặc điểm này, SOM đã được sử dụng ngày càng rộng rãi trong nhiều bài toán phân lớp và phân tích trong nhiều lĩnh vực khoa học và công nghệ. SOM liên kết các hình thế sy nốp và yếu tố khí tượng, nên cơ chế vật lý của sự thay đổi yếu tố khí tượng có thể được khám phá với sự trợ giúp của các mô hình này. Có thể vì thế nên SOM đã được ứng rụng khá rộng rãi trong lĩnh vực khí tượng khí hậu.

Hình 2. 3 Mô hình khái niệm của SOM

Số liệu tái phân tích ERA5 được lựa chọn làm đầu vào cho mạng SOM, trên cơ sở đó phân loại ra các cụm dữ liệu đặc trưng cho các nhóm hình thế rét đậm, rét hại và mưa lớn. Về mặt lý thuyết, có thể sử dụng toàn bộ các biến khí quyển được thu thập trong ERA5 để đưa vào quá trình học của SOM. Tuy nhiên, điều này có thể gây ra sự dư thừa thông tin và ảnh hưởng đến quá trình phân loại ra các nhóm dữ liệu đặc trưng. Để đảm bảo vẫn mô tả được đầy đủ các hình thế gây rét đậm, rét hại và mưa lớn diện rộng trên khu vực Bắc Bộ, giảm tối đa các thông tin không cần thiết và tăng thời gian xử lý, tính toán của SOM, miền số liệu toàn cầu của số liệu tái phân tích ERA5 được lựa chọn (10-50oN và 80-140oE) tương ứng với 40 x 60 điểm nút lưới trên lưới kinh vĩ 0.25 độ. Bên cạnh đó, nhằm xem xét vai trò của EASJS trong dự báo rét đậm, rét hại và mưa lớn trên khu vực Bắc Bộ, nghiên cứu này sẽ xem xét khảo sát với hai trường hợp: (1) Sử dụng trường khí áp mực biển trung bình (MSLP), và (2) Sự kết hợp của MSLP với uv mực đẳng áp chuẩn 200mb.

Quá trình huấn luyện phụ thuộc vào kích thước của mạng SOM và các tham số huấn luyện khác nhau (ví dụ: tốc độ học, bán kính và thời gian huấn luyện). Do đó, việc thử sai số được sử dụng để thu được kích thước SOM phù hợp nhất. Có một số công thức để xác định số lượng hàng và tỷ lệ giữa chiều rộng (x) và chiều dài (y) của SOM chẳng hạn như sử dụng các giá trị riêng của dữ liệu được chuyển đổi, điều này dựa trên phương pháp phân tích thành phần chính (PCA). Sai số QE và TE được sử dụng để xác định cấu trúc của SOM, sau đó Kỹ thuật K-mean tiếp theo được áp dụng cho các kết quả này nhằm phân nhóm hình thế được rõ ràng hơn.

Để thực hiện học SOM sẽ bao gồm:

– Bước 1: Trường yếu tố khí quyển được lựa chọn để làm nhân tố phân cụm.

– Bước 2: Chuẩn hóa dữ liệu ERA5;

– Bước 3: Thực hiện SOM và tính toán U-Matrix

(1) Trọng số của mỗi nút được khởi tạo. Một vectơ được chọn ngẫu nhiên từ tập dữ liệu huấn luyện;

(2) Tính khoảng cách ED/S-SIM của mỗi nút. Nút chiến thắng là có ED bé nhất/hoặc S-SIM lớn nhất, gọi là đơn vị phù hợp nhất (BMU);

(3) Cập nhật trọng số, sau đó tính lại trọng số giống với vectơ đầu vào nhất;

(4) Nút càng gần BMU thì trọng số của nó càng bị thay đổi nhiều và nút lân cận càng ở xa BMU thì càng học ít.

(5) Lặp lại từ 1-4 cho đến khi mọi nút tiến gần đến vectơ đầu vào.

Bước 5: Hiển thị hóa bản đồ U-Matrix. Tạo ra các thang theo giá trị khoảng cách/S-SIM thu được trong U-Matrix để khi hiển thị rõ các phân cụm dữ liệu;

Bước 6: Phân cụm theo K-mean

Bước 7: Tính toán xác suất xuất hiện của rét đậm, rét hại và mưa lớn;

Bước 8: Ứng dụng mô hình dự báo 10 ngày của ECMWF vào SOM.

Hình 2. 11 Minh họa quá trình thực hiện dự báo dựa trên SOM

Từ các kết quả nhận được trong bước 5, chúng ta có thể xác định được những ngày rét đậm, rét hại và mưa lớn đã xảy ra trong quá khứ thuộc về nhóm nào. Trên cơ sở đó, tái hiển thị lại các bản đồ phân bố các trường khí quyển MSLP và uv mực 200 hpa của những ngày này để dự báo viên phân tích và xác định chính xác hình thế synốp chi phối (có thể bổ sung những trường và yếu tố khác của những ngày này). Bằng cách thức này, có thể nhận diện được các trường hợp chỉ có một hình thế chi phối hoặc tổ hợp của nhiều hình thế cùng chi phối. Đây là bước dễ bị ảnh hưởng bởi yếu tố chủ quan duy nhất trong toàn bộ quá trình này. Tuy nhiên, sai sót chỉ bước này chủ yếu là nhận định sai tên hình thế hoặc sót hình thế khi có tổ hợp nhiều hình thế, còn về bản chất của nhóm hình thế do SOM tìm ra thì vẫn không thay đổi.

Trong giai đoạn dự báo, các kết quả phân loại được thực hiện bằng phương pháp PP và tương tự để đưa ra dự báo khả năng xuất hiện rét đậm, rét hại ở Bắc Bộ trên cơ sở số liệu hạn dự báo 10 ngày của ECMWF. Số liệu MSLP và uv mực 200 hpa của ECMWF được thu thập, xử lý, chuẩn hóa và thực hiện như được sử dụng luyện SOM. Xác định hình thế thời tiết trong tương lai tương tự trong quá khứ dựa trên BMU, từ đó xác định xác suất xuất hiện rét đậm và rét hại và mưa lớn.

Kết quả thử nghiệm dự báo đã cho thấy: Đối với các đợt rét đậm, 50% số đợt thử nghiệm tương tự với nút huấn luyện SOM học có xác suất xuất hiện rét đậm trên 80% đối với hạn dự báo 1-3 ngày, 70% (60%) số đợt tương tự nút có xác suất 70% (60%) đối với hạn dự báo từ 3-7 ngày (7-10 ngày). Đối với các đợt rét hại, 50% số đợt rét hại tương tự với các nút có xác suất rét hại trên 70% đối với hạn dự báo 1-3 ngày. Tỉ lệ 60% số nút tương tự nút có xác suất rét hại trên 60% (50%) đối với hạn dự báo 3-7 (7-10) ngày. Đối với các đợt mưa lớn: 80% số đợt mưa lớn tương tự với nút có xác suất mưa lớn trên 40% đối với hạn dự báo 1-3 ngày và 80% (65%) số đợt mưa lớn tương tự với nút có xác suất mưa lớn trên 30% đối với hạn dự báo từ 3-7 ngày (7-10 ngày).