中国区域露、霜和结冰现象综合判识数据集（2018–2024）研发

朱华亮¹，张苗苗^1*，洪宸¹，温华洋²

1. 安徽省气象信息中心，合肥 230001；
2. 淮河流域气象中心，合肥 230001

摘要：为实现露、霜和结冰现象的自动化观测，获得及时、全面、连续的露、霜和结冰现象数据，本文基于气温、地表温度、相对湿度、风速等气象要素观测数据，采用Bayes判别法构建了中国区域2,164个地面气象站露、霜和结冰现象的综合判识算法，生成了2018–2024年露、霜和结冰现象综合判识产品，产品频次达1次/时。通过与人工观测数据对比发现，露、霜和结冰现象综合判识产品的判识一致率分别达到65.57%、90.90%和95.26%，能够较好地识别出露、霜和结冰现象。目前，产品已在全国气象部门开展业务应用，能够有效替代气象观测站对露、霜和结冰的人工观测，为我国推进综合气象观测自动化和国家级气象台站无人值守奠定了基础，形成的数据集可作为天气预报、农业气象及道路交通的预报与服务等方面的基础数据。

关键词：露现象；霜现象；结冰现象；Bayes判别；综合判识

DOI: https://doi.org/10.3974/geodp.2026.01.11

CSTR: https://cstr.escience.org.cn/CSTR:20146.14.2026.01.11

数据可用性声明：

本文关联实体数据集已在《全球变化数据仓储电子杂志（中英文）》出版，可获取：

https://doi.org/10.3974/geodb.2025.10.04.V1或https://cstr.escience.org.cn/CSTR:20146.11.2025.10.04.V1.

1 前言

露、霜和结冰是日常生活中比较常见的天气现象，对人们的生产、生活有较大的影响。如，露水是干旱半干旱地区的重要水资源和湿度来源，在植物生长、发育过程中扮演着极其重要的角色^[1]；秋季早霜和春季晚霜都会对植物（特别是农作物）产生冻害^[2,3]；冬季的雨雪天气，道路易出现积雪或结冰现象，会对人们的出行和生活造成极大不便^[4,5]。因此，气象部门对露、霜和结冰现象的监测和预报非常重视，及时、全面、连续的露、霜和结冰数据有利于农业气象、道路交通的预报与服务，是开展有效的灾害预防、应急救援等活动的科学依据^[6–10]。

早期，露、霜和结冰现象的监测方法是以人工目测的方式进行观测^[11]，但这种方法存在着主观性强、观测频率低、测站分布稀疏、投入及维护成本高等弊端^[10,12]。为实现露、霜和结冰现象的观测自动化，国内外学者主要开展了基于示踪物体的图像^[13]、光纤传感器^[14,15]、光学传感器^[16]、微渗仪^[17]等试验研究，但由于相关设备价格较高，判识效果不够理想，国内外尚未有成熟的自动化观测设备，也未形成相应的产品。

霜、露和结冰现象是在一定的天气条件下产生的，是各气象要素变化的综合结果。为实现露、霜和结冰现象的及时、全面、连续的自动化观测，本研究利用现有的观测数据，基于Bayes判别法构建了露、霜和结冰现象综合判识算法，生成了2018年以来的可用于替代人工观测的露、霜和结冰现象综合判识产品，为天气预报、农业气象及道路交通的预报与服务等提供了基础数据支撑。

2 数据集元数据简介

《中国区域露、霜和结冰现象综合判识数据集（2018–2024）》^[18]的名称、作者、地理区域、数据年代、时间分辨率、数据集组成、数据出版与共享服务平台、数据共享政策等信息见表1。

3 数据研发方法

3.1 算法原理

3.1.1 影响因子选取

露、霜和结冰现象的形成受温度、湿度和风速等气象要素的影响，是各要素变化的综合结果，但是不同气象要素对露、霜和结冰形成的影响程度有所不同。作者利用全国600余个国家级基本、基准气象站2003–2013年地面观测数据[1]，计算了露、霜和结冰现象是否出现与气温、地表温度、水汽压和风速的相关系数。通过露、霜和结冰现象与其它气象要素的相关性分析，发现露和霜的形成与气温、地表温度、相对湿度、水汽压和风速的相关性较大，其中露的形成与气温、地表温度、露点温度呈显著的正相关性，而与风速呈显著的负相关性；霜的形成与气温、地表温度、水气压、风速有非常显著的负相关性。结冰与最低气温和最低地表温度相关性最大，且呈显著的负相关性。这表明不同气象要素对露、霜和结冰形成的影响程度有所不同，其中温度是影响它们形成的主要因素，这为露、霜和结冰现象判识模型的构建提供了合适的判识因子。

3.1.2 Bayes判别模型构建

Bayes判别模型是基于贝叶斯定理实现分类决策的统计模型，核心思想是通过计算样本归属不同类别的后验概率，将样本判定为后验概率最大的类别。在天气现象识别场景中，根据露、霜、结冰等目标天气现象的先验概率（即该现象出现与不出现的概率），再结合当

表1 《中国区域露、霜和结冰现象综合判识数据集（2018–2024）》元数据简表

条目	描述
数据集名称	中国区域露、霜和结冰现象综合判识数据集（2018–2024）
数据集短名	ChinaDewFrostIcing2018-2024
作者信息	朱华亮，安徽省气象信息中心，hualiangzhu@126.com 张苗苗，安徽省气象信息中心，zhangmiaomm@126.com 洪宸，安徽省气象信息中心，16590595@qq.com 温华洋，淮河流域气象中心，wenhy12@163.com
地理区域	中国区域2,164个地面气象站（基准气候站、基本气象站和国家级（常规）气象观测站），17.0°N–53.0°N，74.0°E–135.0°E
数据年代	2018–2024年
时间分辨率	h
数据格式	.txt
数据量	176 MB（压缩后）
数据集组成	2018–2024年逐小时露、霜和结冰现象数据
基金项目	中国气象局（YBSZX2024008）
出版与共享服务平台	全球变化科学研究数据出版系统 http://www.geodoi.ac.cn
地址	北京市朝阳区大屯路甲11号100101，中国科学院地理科学与资源研究所
数据共享政策	（1）“数据”以最便利的方式通过互联网系统免费向全社会开放，用户免费浏览、免费下载；（2）最终用户使用“数据”需要按照引用格式在参考文献或适当的位置标注数据来源；（3）增值服务用户或以任何形式散发和传播（包括通过计算机服务器）“数据”的用户需要与《全球变化数据学报（中英文）》编辑部签署书面协议，获得许可；（4）摘取“数据”中的部分记录创作新数据的作者需要遵循10%引用原则，即从本数据集中摘取的数据记录少于新数据集总记录量的10%，同时需要对摘取的数据记录标注数据来源^[1^9]
数据和论文检索系统	DOI，CSTR，Crossref，DCI，CSCD，CNKI，SciEngine，WDS，GEOSS，PubScholar，CKRSC

日气象要素观测数据，分别求解“存在该天气现象”和“不存在该天气现象”两种情况下的条件概率，最终依据两类概率的数值对比，判定当日是否出现该天气现象。单个气象站针对某一天气现象（露、霜或结冰）的Bayes判别模型训练方法和判别步骤^[10,12]如下：

（1）利用气象站点2003–2013年地面气象站观测数据作为训练样本，计算出样本中该天气现象出现和不出现的概率为和。

（2）假设某日的相关气象要素观测值，其中表示日最低气温、日最低地表温度等。根据训练样本集计算该日天气现象不发生和发生情况下观测到相应气象要素值的概率，其中代表该日天气现象不发生，代表该日天气现象发生。

（3）根据Bayes定理，计算在相应气象要素观测值条件下该日天气现象不发生和发生的概率，计算公式如下：

(1)

若天气现象不发生的概率大于发生的概率，则认为该日无相应天气现象；否则，认为该日有相应天气现象。即有：

(2)

式2可以简化为：

(3)

假设该天气现象未发生或发生条件下的气象要素相互独立且都服从正态分布，则有：

(4)

式中和表示第类第个特征的均值和标准差，利用训练样本可通过极大似然估计法得到。

（4）根据每日相关气象要素的观测值（日最低气温、日最低地表温度等），利用式4可以完成天气现象的判定。若，认为该日无相应天气现象；反之，认为该日有相应天气现象。

针对全国2,164个气象站的露、霜和结冰现象分别重复上述步骤，其中露现象和霜现象的Bayes判别模型选取的气象要素有气温、地表温度、水汽压、风速和相对湿度等，结冰现象选取的气象要素有气温、地表温度。在模型构建过程中发现，全国有1,202个气象站建立了基于Bayes判别法的露判识模型，有962个站因露观测数据质量等问题未建立模型；霜模型中，全国存在81个站点因建站较晚或其它原因，无历史观测数据作为建模样本，无法建立霜现象Bayes判别模型。结冰判识模型中，全国存在19个站点因建站较晚或其它原因，无历史观测数据作为建模样本，无法建立Bayes判别模型。作者采用2014–2015年地面气象站观测数据作为独立样本对Bayes判别模型的判别效果进行检验，发现露、霜和结冰判别模型的平均判识准确率分别达到86.1%、91.8%、96.9%，这表明应用Bayes判别法建立的露、霜和结冰现象判别模型是合理的，可以接受的。

3.2 技术路线

综合考虑雨雪等特殊天气条件的影响，采用如下步骤对露、霜和结冰现象进行综合判识。

步骤1：阈值判断。根据表2中地面观测要素判定当前时次是否利于露、霜和结冰现象的发生，若不利于露、霜或结冰现象的发生，则直接判定当前时次无相应天气现象，反之进入步骤2。

表2 不利于露、霜和结冰现象生成的天气条件

要素

露

霜

结冰

不利条件

最高气温<–3 ℃

过去3小时降水量>0 mm

相对湿度<60%

风速>5 m/s

最低气温>3 ℃

过去3小时降水量>0 mm

相对湿度<60%

风速>5 m/s

最低气温>3 ℃

注：上述现象中任一条件出现时，即不利于相应天气现象的生成。

步骤2：Bayes模型判断。判断当前站点是否构建了Bayes判别模型，若已构建相应的Bayes判别模型，则利用模型对相应天气现象进行判识；否则进入步骤3。

步骤3：参考站Bayes模型判定。判断判识站点是否存在参考站，若存在参考站，则利用参考站Bayes模型对相应天气现象进行判识；否则进入步骤4。其中参考站选取的标准为：（1）与待判识站点的海拔高度差小于200 m，地理环境相似；（2）与待判识站点的日平均气温相关系数>0.9，且通过0.05的显著性水平检验；（3）与待判识站点的直线距离小于100 km；（4）成功构建了相应天气现象Bayes判别模型。若存在多个参考站选取，则选取距离最近的站点作为参考站。

步骤4：阈值判断。广东、广西、海南等沿海地区及高海拔地区气象站，因常年温度过高（或过低），建模样本中无露（霜或结冰）现象或只有几日出现露（霜或结冰）现象，建模过程中已将这一类站点剔除，在实时计算过程中，对于无法构建Bayes模型也无参考站模型可选的站点，直接采用要素阈值进行判断，具体见表3。

表3 露、霜和结冰现象判别阈值

要素

露

霜

结冰

判别要素

气温>0 ℃

相对湿度>80%

风速<5 m/s

地面温度-露点温度≤0 ℃

气温<0 ℃

相对湿度>80%

风速<5 m/s

地面温度-露点温度≤0 ℃

气温＜0 ℃

注：上述现象中所有条件同时满足时，才判定有相应天气现象的生成。

4 数据结果与验证

4.1 数据集组成

该产品包含了2018年11月15日–2024年12月31日中国区域2,164个地面气象站逐小时露、霜和结冰现象。数据集存储在以站号命名的 .txt文件中，数据间以“;”进行分隔，缺测数据用“/”表示，数据量为176 MB（压缩后）。实体文件数据内容见表4。

4.2 数据结果

《地面气象观测规范》^[11]规定：“一月中缺测7次或以上时，该月不作月统计，按缺测处理；一年中有1个月或以上记录不作月统计时，该年不作年统计，按缺测处理”。基于《中国区域露、霜和结冰现象综合判识数据集（2018–2024）》，统计得到中国区域2,164个地面气象站2019–2024年露、霜和结冰的年日数序列（因2018年仅有1.5个月的数据，故

表4 数据集文件内容构成

序号	项目	项目名称	字符数	说明
1	Station_Id_C	站号	5	–
2	Lat	北纬	5	十进制，单位：°
3	Lon	东经	6	十进制，单位：°
4	Alti	拔海高度	5	单位：m
5	Station_Name	站名（中文）	不固定	–
6	Station_Name_Eng	站名（英文）	不固定	–
7	Year	年	4	–
8	Mon	月	1–2	–
9	Day	日	1–2	–
10	Hour	时	1–2	–
11	Dew	露现象	1	1表示该时次出现露天气现象 0表示该时次未出现露天气现象
12	Frost	霜现象	1	1表示该时次出现霜天气现象 0表示该时次未出现霜天气现象
13	ICE	结冰现象	1	1表示该时次出现结冰天气现象 0表示该时次未出现结冰天气现象

无年度数据）。图1–3给出了利用薄板样条插值法得到的年平均露、霜和结冰日数的空间分布情况。从图1可以看出，我国年露日总体呈现南多北少的态势。西南地区是我国露日最长的地区，大多数台站均在250 d，如昆明271 d，大理337 d，最长的是江西遂川达到361 d。北部地区露日相对较少，尤其是西北地区大多在50 d以下，如新疆的哈密和克拉玛依均在20 d左右，最少露日出现在新疆的吐鲁番为1 d。高山站观测到的露日相对周边山下站偏少，如五台山平均仅30 d，嵩山仅2 d，均远远少于山下台站。

从图2可以看出，霜的空间特征和露相反，呈现为北多南少。霜日较多的地区集中在四川与青海交界沿线，东北的黑龙江、吉林和内蒙东部地区，以及新疆北部地区，霜日最多的地区为青海的玛多站，年霜日251 d，黑龙江的漠河、四川的色达，新疆的巴音布鲁克，内蒙的阿尔山等站均超过了200 d。北纬21°以南则无霜出现，北纬21°以北霜日最少的云南勐海仅1 d。

从图3可以看出，我国结冰日北多南少，结冰日最多集中在青海和新疆地区以及东北地区。如青海的五道梁站年结冰日达282 d，新疆的天山大西沟则为232 d，东北黑龙江省的新林和漠河均在220 d以上。北纬23°以南则无结冰现象出现，北纬23°以北结冰日最少的云南腾冲、广东紫金等地仅1 d。

图4给出了2019–2024年全国平均年露、霜和结冰日数序列，全国平均年露日196 d，平均年霜日54 d，平均年结冰日65 d（因2020年7月较多站点出现超过7 d缺测现象，故2020年露日、霜日、结冰日统计为缺测）。从图中可以看出，年平均露日总体呈现增加趋

图1 中国区域年平均露日数空间分布图（2019–2024）

（参考审图号为GS（2019）1823号的标准地图制作）

图2 中国区域年平均霜日数空间分布图（2019–2024）

（参考审图号为GS（2019）1823号的标准地图制作）

图3 中国区域年平均结冰日数空间分布图（2019–2024）

（参考审图号为GS（2019）1823号的标准地图制作）

图4 全国平均年露、霜和结冰日数序列统计图

势，从2019年的164 d增加至2024年的205 d，增长速率为5.48%。与露日数的持续增长不同，霜期序列较为稳定，2019年和2021年均为45 d，后增加至2024年的62 d。结冰日最低值为2021年的46 d，其余年份结冰日均在70 d左右，变化较为平缓。

4.3 数据结果验证

应用2018年11月15日至2019年11月14日的人工观测数据对产品结果进行评估。由于人工观测数据为日频次，综合判识产品为小时频次，为便于评估判识产品效果，假定综合判识产品某日任一时次出现露、霜或结冰现象，就认为该日出现相应天气现象，然后比较两者的一致性。若判识一致率越高，则判识效果越好，反之则判识效果越差。

表5给出了判识产品的整体评估情况。露判识产品评估中，全国人工观测与判识产品均记录有露现象的为151,476次，全国人工观测与判识产品均记录无露现象的为432,211次，露现象的判识总体一致率为65.57%。从表5中可以发现，露判识产品中出现露现象的次数明显多于人工观测到露现象的次数，这一方面是因为在冬季夜间先出现露，之后露冻结形成霜，清晨只记观测到霜而未观测到露的现象导致露的漏记；另一方面是因为观测规范中规定霜化为露后不计露，冬季多出现霜露混合的现象，霜化为露时也有露水形成的现象，导致露的漏记。霜现象综合判识产品方面，全国人工观测与判识产品均记录有霜现象的为95,204次，全国人工观测与判识产品均记录无霜现象的为714,061次，霜现象的判识总体一致率为90.90%。同样，霜判识产品中霜现象出现的次数多于人工观测到霜现象的次数，这主要是因为霜多形成于夜间，2013年后国家级一般气象站取消夜间观测时次，夜间有霜形成而人工漏测造成的。结冰现象综合判识产品方面，全国人工观测与判识产品均记录有结冰现象的为176,285次，全国人工观测与判识产品均记录无结冰现象的为671,718次，结冰现象的判识总体一致率为95.26%，与人工观测相比，漏判、误判现象较少，能很好反映结冰现象的实际发生情况。

表5 露、霜和结冰现象综合判识产品整体评估效果

天气现象	人工观测有/判识产品有（次）	人工观测有/判识产品无（次）	人工观测无/判识产品有（次）	人工观测无/判识产品无（次）	一致率（%）
露现象	151,476	30,354	276,188	432,211	65.57
霜现象	95,204	23,534	57,435	714,061	90.90
结冰现象	176,285	19,111	23,120	671,718	95.26

5 讨论和总结

本产品主要是基于Bayes判别方法构建的露、霜和结冰天气现象自动判识模型，并结合温度、湿度、风速等地面观测要素进行综合判识生成的。经检验评估表明，露、霜和结冰现象综合判识一致率分别达到65.57%、90.90%和95.26%，但仍存在部分站点的判识准确率还不高，漏判或误判较多的情况。这一方面是由于训练数据集和验证数据集均采用人工观测数据，主观性强、观测频率低等原因影响数据集的可靠性；另一方面，在Bayes判别模型构建过程中，影响因子选择偏少、数据量不够、数据分布不均等原因造成训练的模型泛化能力不足。针对上述问题，可从3方面优化：其一，结合天气现象视频智能观测仪等自动化设备，收集真实场景数据，补充少样本类别与边缘案例数据；其二，加强数据集清洗与异常检测，通过聚类算法识别并筛选异常值，提升数据可靠性；其三，选用深度学习模型等适宜复杂度的模型替代Bayes模型，采用精确率、召回率、F1分数等指标开展多维度评估，持续验证模型性能。

目前，该产品已在气象部门进行业务化应用，用于替代露、霜和结冰现象的人工观测，可作为天气预报、农业气象及道路交通的预报与服务等方面的基础数据。其不足之处是产品的空间分辨率不高，不能满足精细化服务需求。后期可结合地面网格实况数据，开展中国区域露、霜和结冰现象网格实况产品研制。

作者分工：温华洋对数据集的开发做了总体设计；朱华亮设计了模型和算法，并对数据集产品进行了评估验证；张苗苗、洪宸采集和处理了露、霜和结冰现象生成的天气条件数据；朱华亮、张苗苗撰写了数据论文。

利益冲突声明：本研究不存在研究者以及与公开研究成果有关的利益冲突。

参考文献

[1] 马波, 田军仓, 何进宇等. 宁夏中部干旱带露水形成机制及其对表层土壤水分的影响[J]. 水科学进展, 2022, 33(6): 955–966.

[2] 王瑛, 邱星霖, 李雨欣等. 基于物候期的霜冻灾害林果减产风险评估: 以河北省为例[J]. 中国农业气象, 2022, 4(10): 821–831.

[3] 张波, 孙思思, 丁立国等. 贵州春茶霜冻害危险性分析及区划[J]. 气象与环境学报, 2023, 39(5): 99–105.

[4] 鲍丽丽, 程鹏, 王小勇等. 基于Logistic回归和神经网络的甘肃省道路结冰预警[J]. 干旱气象, 2024, 42(1): 137–145.

[5] 张宏芳, 卢珊, 沈姣姣等. 陕西道路结冰时空变化特征及其风险预警模型[J]. 干旱气象, 2020, 38(5): 878–885.

[6] 宋萍, 车军辉, 国婷婷等. 环胶州湾高速路面低温气候特征和SVM预报模型[J]. 海洋气象学报, 2023, 43(3): 80–87.

[7] 王可心, 包云轩, 朱承瑛等. 随机森林回归法在冬季路面温度预报中的应用[J]. 气象, 2021, 47(1): 82–93．

[8] 邹兰军, 刘姝, 陆勤静. 基于神经网络的路面温度模型与结冰潜势研究[J]. 公路, 2022, 67(10): 409–414.

[9] 张庆奎, 项阳, 吉振明等. 近55年安徽省结冰现象气候特征及趋势分析[J]. 自然灾害学报, 2020, 29(6): 218–226.

[10] 华连生, 温华洋, 朱华亮等. 基于Bayes判别法的霜生自动化观测模型探讨[J]. 气象, 2015, 41(8): 964–969.

[11] 中国气象局. 地面气象观测规范[M]. 北京: 气象出版社, 2003: 21–27.

[12] 温华洋, 朱华亮, 马文周等. 基于Bayes判别法的结冰现象资料序列订正[J]. 气象, 2021, 47(9): 1113–1121.

[13] 师传琛. 基于机器视觉的路面结冰监测与预警系统[J]. 电子设计工程, 2025, 33(6): 34–38.

[14] 赵晓康, 胡哲, 张久鹏等. 基于光纤传感技术的路面结冰智能监测研究进展[J]. 吉林大学学报(工学版), 2023, 53(6): 1566–1579.

[15] 谢清忠, 王玲, 葛敬勇等. 聚合物光纤结冰传感器设计与路面冰层厚度检测方法[J]. 中外公路, 2023, 43(4): 59–67.

[16] 马舒庆, 吴可军, 陈冬冬等. 天气现象自动化观测系统设计[J]. 气象, 2011, 37(9): 1166–1172.

[17] 冉彬, 张在勇, 杨京博等. 毛乌素沙地沙蒿凝结水形成规律及其对水均衡的影响[J]. 农业工程学报, 2023, 39(8): 111–119.

[18] 朱华亮, 张苗苗, 洪宸等. 中国区域露、霜和结冰现象综合判识数据集（2018–2024）[J/DB/OL]. 全球变化数据仓储电子杂志, 2025. https://doi.org/10.3974/geodb.2025.10.04.V1. https://cstr.escience.org.cn/CSTR:20146.11.2025.10.04.V1.

[19] 全球变化科学研究数据出版系统. 全球变化科学研究数据共享政策[OL]. https://doi.org/10.3974/ dp.policy.2014.05 (2017年更新).

[1] 安徽省气象局. 气象大数据云平台（天擎·安徽）.

中国区域露、霜和结冰现象综合判识数据集（2018–2024）研发

朱华亮1，张苗苗1*，洪 宸1，温华洋2

1 前言

2 数据集元数据简介

3 数据研发方法

4 数据结果与验证

5 讨论和总结

参考文献

朱华亮¹，张苗苗^1*，洪宸¹，温华洋²