什么是天气预报算法(什么是天气预报算法的基本)
天气预测又名气象预报是由强大的超级计算机,其处理的当前天气状况的观测数十万完成。为了观察当前的天气,人类已经向太空发射了无数的卫星。这些卫星穿越地球并捕获数据,然后发送到地球上建立的数据中心。
从卫星接收的数据是RAW格式,不提供任何类型的信息。因此,为了获得知识,我们需要使用各种数学模型来处理它。
为了从RAW数据预测天气,我们需要使数据适合于数学模型的输入。处理后的数据存储在数据仓库中。那些存储的数据可以直接将其作为数学模型的输入,最终为我们提供所需的信息。
将RAW数据转换为清理数据的过程称为知识发现过程,换句话说,我们称之为数据挖掘。为了预测信息,使用了各种数据挖掘方法,例如;
决策树
基于规则的方法
神经网络
朴素贝叶斯
贝叶斯信念网络
支持向量机
在这些方法中,最着名的方法是决策树方法。
什么是决策树?
决策树是树状图或决策模型及其可能的后果,包括机会事件结果,资源成本和效用。决策树的图形表示可以是:
使用以下决策树算法创建决策树。
ID3(迭代dichotomiser3)
C4.5 (ID3的继承者)
CART(分类和回归树)
CHAID(chi - squared自动互动探测器)
MARS(扩展决策树以更好地处理数值数据)
使用ID3算法的示例:
让我解释一下,如何生成决策树以及如何使用它进行预测。为了计算,我使用了ID3算法。使用以下数据集,我们将预测11月18日的天气。
要从任何数据集创建决策树,我们需要执行一些计算,比如熵,它是对消息来源不确定性的度量。它给了我们数据的无序程度。另一个是信息增益,用来测量熵的期望降低。它决定哪个属性进入决策节点。执行计算后,决策树将如下所示
观察生成的决策树后,您可以预测11月18日的天气。
滑动窗口算法
ID3算法的主要缺点是天气数据的小尺寸。正如您所见,我们只采用了5个参数[最高温度,最低温度,湿度,降雨量,前景],它可能会产生错误的预测。解决这个问题的方法是花费几年的历史数据,而不是一周。如果历史趋势与当前趋势无关,则发生故障的风险更高。
通过滑动窗口算法解决了这个问题:
每周天气趋势可能与历史数据不完全一致。可能存在可能抵消与当前条件相对接近的历史趋势的不同条件。滑动窗口算法通过从两周数据集中采样来解释这种潜在的偏差。通过划分该样本数据,该算法可以确定最佳拟合 趋势并预测第二天的天气。
该算法的一个优点是它使用从前一年的同一时间段观察到的数据。样本数据也可以调整; 除了增加历史观察周的数量之外,还可以观察到多年的数据。应限制增加观察周数,以确保预测基于一年中的同一时间。
该算法的缺点在于,已经采样的历史数据可能无法参考当前的趋势。这可能是由于前几年没有观察到的有影响的天气条件造成的。由于缺乏类似的数据,这样的事件会导致预测偏差。
对于实验观点,您可以使用数据集和挖掘工具自行执行预测。我想建议一些实验的工具和数据集存储库。
工具
Weka [广泛使用]
Rapid Miner
数据集存储库
UCI机器学习库 - 数据集(http://archive.ics.uci.edu/ml/datasets.html)
一种使用机器学习的现代方法
到目前为止,无论我们看到什么,都被称为传统的天气预报方法。这些传统方法非常不稳定,并且在预测中容易出错。而且,我们无法预测使用它们的大部分时间,因为它们在那个阶段变得不准确。
最常见的是,只有两种机器学习技术用于天气预报。
神经网络
贝叶斯网络
神经网络本质上是高度动态的,因此它似乎是天气预报中最受欢迎的机器学习模型选择。与线性回归和功能回归模型不同,这种流行的主要原因是能够捕获过去天气趋势和未来天气条件的非线性依赖性。
剩下的机器学习技术是贝叶斯网络,它最终使用机器学习算法来找到最优的贝叶斯网络和参数[温度,湿度,前景等]。由于存在大量不同的依赖性,贝叶斯网络的计算成本非常昂贵。