贝叶斯机器学习：从经济衰退预测到动态对冲交易

在本章中,我们将介绍贝叶斯机器学习(Bayesian ML)方法,以及它们在开发和评估交易策略时如何通过不同的不确定性视角增加价值。

贝叶斯统计允许我们量化未来事件的不确定性,并随着新信息的到来以有条理的方式完善我们的估计。这种动态方法很好地适应了金融市场不断变化的性质。当相关数据较少时,需要系统地整合先验知识或假设的方法尤其有用。

我们将看到,贝叶斯机器学习方法可以为统计度量、参数估计和预测的不确定性提供更丰富的见解。应用范围从更细粒度的风险管理到动态更新的预测模型,后者可以吸收市场环境的变化。资产配置的Black-Litterman方法(参见第5章投资组合优化和绩效评估)可以被解释为一个贝叶斯模型。它将资产的预期收益计算为市场均衡和投资者观点的加权平均值,权重由该资产的波动率、跨资产相关性和每个预测的置信度决定。

贝叶斯机器学习是如何工作的

古典统计学被认为遵循频率主义方法,因为它将概率解释为长期内事件发生的相对频率,即在观察到大量试验后。在概率的背景下,事件是实验的一个或多个基本结果的组合,例如掷两个骰子的任何六个等可能结果或某资产价格在给定一天内下跌10%或更多。

而贝叶斯统计学将概率视为对事件发生的信心或信念的度量。因此,贝叶斯观点比频率主义解释留出了更多的主观视角和意见差异空间。对于发生频率不足以得出长期客观频率度量的事件,这种差异最为明显。

换句话说,频率主义统计学假设数据是从一个群体中随机抽取的样本,旨在识别生成数据的固定参数。相反,贝叶斯统计学将数据视为已知,并认为参数是可以从数据中推断出分布的随机变量。因此,频率主义方法至少需要与要估计的参数数量一样多的数据点。而贝叶斯方法则可以适用于较小的数据集,并且非常适合一次一个样本的在线学习。

贝叶斯观点对于许多现实世界中罕见或独特的事件非常有用。例如,下一次选举的结果或市场是否将在三个月内崩盘的问题。在每种情况下,都存在相关的历史数据以及随着事件的临近而展开的独特环境。

我们首先介绍贝叶斯定理,它阐明了通过将先验假设与新的经验证据相结合来更新信念的概念,并将其结果参数估计与频率主义方法进行比较。然后,我们演示两种贝叶斯统计推断方法,即共轭先验和近似推断,它们可以提供对潜在的未观测参数(如期望值)的后验分布的洞见:

共轭先验通过提供一个封闭形式的解决方案,简化了更新过程,使我们能够精确地计算解决方案。但是,这种精确的解析方法并不总是可用的。
近似推断模拟了由假设和数据结合而产生的分布,并使用该分布的样本来计算统计见解。

参考文献

如何从经验证据更新假设

250多年前,贝叶斯牧师提出的定理使用基本的概率理论来规定,当相关的新信息到来时,概率或信念应该如何变化,正如约翰·梅纳德·凯恩斯所说:“当事实发生变化时,我就改变我的想法。你呢,先生?”。

贝叶斯规则:指南
使用连续先验的贝叶斯更新, MIT开放课程,18.05概率和统计导论

精确推断:最大后验估计

将贝叶斯规则应用于精确计算后验概率的实际应用非常有限,因为计算分母中的证据项非常具有挑战性。

如何保持推断简单:共轭先验

当后验分布与先验分布属于同一类型的分布(除了参数不同)时,我们称该先验分布与似然函数是共轭的。先验和似然的共轭性意味着后验分布有一个封闭形式的解决方案,这简化了更新过程,避免了使用数值方法来近似后验分布的需要。

代码示例:如何动态估计资产价格变动的概率

笔记本updating_conjugate_priors演示了如何使用共轭先验来更新来自S&P 500样本的价格变动估计。

确定性和随机近似推断

对于大多数实际相关的模型来说,不可能解析地推导出精确的后验分布并计算潜在参数的期望值。

虽然对于某些应用程序,未观测参数的后验分布可能是感兴趣的,但通常主要需要评估期望值,例如进行预测。在这种情况下,我们可以依赖近似推断:

基于马尔可夫链蒙特卡罗(MCMC)采样的随机技术已经使贝叶斯方法在许多领域广为人知。它们通常具有收敛到精确结果的性质。在实践中,采样方法可能计算量很大,通常局限于小规模问题。
- 汉密尔顿蒙特卡罗方法的概念性介绍, Michael Betancourt, 2018
- 无U转采样器:在汉密尔顿蒙特卡罗中自适应设置路径长度, Matthew D. Hoffman, Andrew Gelman, 2011
- ML、MAP和贝叶斯 - 参数估计和数据预测的神圣三位一体
称为变分推断或变分贝叶斯的确定性方法基于对后验分布的解析近似,可以很好地扩展到大规模应用。它们做出简化假设,例如后验分布在某种特定方式下分解,或具有特定参数形式如高斯分布。因此,它们不会产生精确的结果,可以作为采样方法的补充。
- 变分推断:统计学家的综述, David Blei等, 2018

使用PyMC3的概率编程

概率编程提供了一种描述和拟合概率分布的语言,因此我们可以设计、编码并自动估计和评估复杂的模型。它旨在抽象掉一些计算和分析复杂性,让我们能够专注于贝叶斯推理和推断的概念上更直接和直观的方面。
自从优步开源了基于PyTorch的Pyro,以及谷歌最近为TensorFlow添加了一个概率模块以来,这个领域变得相当活跃。

使用Theano的贝叶斯机器学习

PyMC3于2017年1月发布,为使用在PyMC2(2012年发布)中的Metropolis-Hastings采样器添加了汉密尔顿蒙特卡罗方法。PyMC3使用Theano作为其计算后端,用于动态C编译和自动微分。Theano是一个由Yoshua Bengio的蒙特利尔机器学习算法研究所(MILA)开发的专注于矩阵的GPU加速优化库,启发了TensorFlow。由于新的深度学习库的成功,MILA最近决定不再进一步开发Theano(详见第16章)。
PyMC4,计划于2019年发布,将使用TensorFlow,对API的影响应该有限。