指数加权平均是机器学习中的一个重要概念,来自统计学理论。现对其记录如下,并通过可视化操作理解其计算的思想。
有如下100天的温度数据,如何估计100天内温度的趋势,也就是温度的局部平均值(移动平均值)?本文记录采用指数加权平均来计算。
计算公式为
变量在时刻的计算值为
为在时刻的观测值可以看出,
- 指数加权平均考虑了历史测量数据的影响,近期的测量数据给予较大的权重,较前的数据由于也具备一定的权重,因而可以影响到当前的计算结果。
- 越大时(),计算结果越重视前面天数测量值的影响,其结果也越光滑。
- 当时(约考虑前面两天的测量值影响),注重短期内的计算结果,故所得曲线(绿色部分)较为粗糙。
- 当时(约考虑前面天的测量值影响),由于考虑了较多的历史信息,相比于(约考虑前面天的测量值影响),其对当前数据的敏感程度降低,即对数据趋势走向的反应出现迟钝。
下面进一步讨论上述取值的影响
当时
可算得为:可以上面的将权重数据可视化为:
当计算第100天的结果时,对前面天数的权重做可视化处理如下:
当时
计算第100天的结果时,按照前面的计算步骤,对前面天数的权重做可视化处理如下:
当时
计算第100天的结果时,对前面天数的权重做可视化处理如下:可以看出算法较为注重短期内的计算结果
从上面的对比中,大致可以清楚不同取值对历史数据考虑程度的影响,这在强化学习中也有所应用。
阅读原文