在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
原文链接:http://tecdat.cn/?p=12280
本文简要介绍了一种简单的状态切换模型,该模型构成了隐马尔可夫模型(HMM)的特例。这些模型适应时间序列数据中的非平稳性。从应用的角度来看,这些模型在评估经济/市场状态时非常有用。这里的讨论主要围绕使用这些模型的科学性。 基本案例HMM的主要挑战是预测隐藏部分。我们如何识别“不可观察”的事物?HMM的想法是从可观察的事物来预测潜在的事物。 模拟数据为了演示,我们准备一些数据并尝试进行反向推测。通过构造,我强加了一些假设来创建我们的数据。每个状态都具有不同的均值和波动率。
如上表所示,状态\(s = 2 \)变成“坏”状态,其中过程\(x_t \)表现出较高的变化性。 因此,停留在状态2的可能比停留在状态1的可能性小。 马尔可夫过程为了模拟过程\(x_t \),我们从模拟马尔可夫过程\(s_t \)开始。为了模拟\(T \)期间的过程,首先,我们需要构建给定\(p_ {11} \)和\(p_ {22} \)的转换矩阵。其次,我们需要从给定状态\(s_1 = 1 \)开始。从\(s_1 = 1 \)开始,我们知道有95%的概率停留在状态1,有5%的概率进入状态2。 模拟\(s_t \)是递归的,因为它先前先前的状态。因此,我们需要构造一个循环:
上图说明了过程\(s_t \)的持久性。在大多数情况下,状态1的“实现”多于状态2。实际上,这可以由固定概率确定,该固定概率由下式表示: 因此,经历时间的流逝,有15%的概率处于1状态,而有25%的概率处于状态2。这应该反映在模拟过程中 由于我们使用的是100个周期的小样本,因此我们观察到稳定概率为69%,接近但不完全等于75%。 结果给定模拟的马尔可夫过程,结果过程的模拟非常简单。一个简单的技巧是模拟\(x_t \ mid s_t = 1 \)的\(T \)周期和\ (x_t \ mid s_t = 2 \)的\(T \)周期。然后,给定\(s_t \)的模拟,我们针对每个状态创建结果变量\(x_t \)。
虽然总体而言时间序列看起来是平稳的,但我们观察到一些周期(以红色突出显示)显示出较高的波动。有人可能会建议说,数据存在结构性中断,或者体制发生了变化,过程\(x_t \)变得越来越大,带有更多的负值。虽然如此,事后解释总是比较容易的。主要的挑战是识别这种情况。 估计参数在本节中,我将使用R软件手动(从头开始)和非手动进行统计分解。在前者中,我将演示如何构造似然函数,然后使用约束优化问题来估计参数。我将说明如何在不经历解析推导的情况下进行复制。 似然函数-数值部分首先,我们需要创建一个以\(\ Theta \)向量为主要输入的函数。其次,我们需要设置一个返回MLE的优化问题。 在优化似然函数之前。让我们看一下工作原理。假设我们知道参数\(\ Theta \)的向量,并且我们有兴趣使用\(x_t \)上的数据评估隐藏状态随时间的变化。
显然,这两种状态的每次过滤器的总和应为1。看起来,我们可以处于状态1或状态2。 由于我们设计了此数据,因此我们知道状态2的时期。
过滤器背后的优点是仅使用\(x_t \)上的信息来识别潜在状态。我们观察到,状态2的过滤器主要在状态2发生时增加。这可以通过发出红点的概率增加来证明,红点表示状态2发生的时间段。尽管如此,上述还是存在一些重大问题。首先,它假定我们知道参数\(\ Theta \),而实际上我们需要对此进行估计,然后在此基础上进行推断。其次,所有这些都是在样本中构造的。从实际的角度来看,决策者对预测的概率及其对未来投资的影响感兴趣。 手动估算为了优化上面定义的 第一步,我使用样本创建初始参数向量\(\ Theta_0 \) 在第二步中,我为估算制定了约束 请注意,参数的初始向量应满足约束条件 最后,回想一下,通过构建大多数优化算法都可以搜索最小点。因此,我们需要将似然函数的输出更改为负值。 为了检查MLE值是否与真实参数一致,我们绘制估计值与真实值的关系图:
总体而言,我们观察到估计值非常一致,由于MLE的一致性属性,这不足为奇。 估算我将在下面演示如何使用r软件复制人工估算的结果 。 如果我们要忽略过程中的任何体制转换,我们可以简单地将参数\(\ mu \)和\(\ sigma \)估计为
平均而言,我们应该期望过程平均值约为1,即\(0.75 \ times 2 + 0.25 \ times(-1)= 1 \)。这是由总期望属性定律得出的,其中我们知道\ [\ begin {equation} \ mathbb {E} [x] = \ sum _ {\ forall s} \ mathbb {E} \ left [x \ mid s \右] \ mathbb {P}(s)= \ sum _ {\ forall s} \ mu_ {s} \ pi_ {s} \ end {equation} \] 这样 对于波动率,适用相同的逻辑。 我们注意到,回归估计值与波动率的一致性高于均值。这主要是由于估算第一时刻与第二时刻的工作比较繁琐。 上面的观点是,估计值并未涵盖数据的真实性质。如果我们假设数据是固定的,那么我们错误地估计过程的平均值为62%。但是,与此同时,我们通过构造知道该过程表现出两个平均结果-一个正面和一个负面。波动性也是如此。 为了揭示这些模式,我们在下面演示如何使用上面的线性模型部署状态切换模型: 主要输入是拟合模型, 要了解模型的输出,让我们看一下 上面的输出主要报告我们尝试手动估算的六个估算参数。首先,系数表报告了每个状态的均值和波幅。模型1的平均值为1.71,波动率接近1。模型2的平均值为-2,波动率约为2。显然,该模型针对数据确定了两种具有不同均值和波动率的不同状态。其次,在输出的底部,拟合的模型报告过渡概率。
有趣的是,就每种状态的过滤器而言,我们将从包中检索到的状态与手动提取的状态进行比较。根据定义,可以使用
顶部的图表示随时间变化的过程\(x_t \),其中灰色阴影区域表示\(\ hat {\ xi} _ {T \ mid t,1}> 0.5 \)的时间段。换句话说,灰色区域表示状态1占优势的时间段。
过滤器会在一个周期内检测到第二种状态。发生这种情况是因为 无论如何,由于我们知道状态的真实值,因此可以确定我们是否处于真实状态。我们在上面的图中使用黑点突出显示状态2。总的来说,我们观察到模型在检测数据状态方面表现非常出色。唯一的例外是第60天,其中推断概率大于50%。要查看推理概率多长时间正确一次,我们运行以下命令 结束语此过程似乎运行良好。然而,在实际数据实现方面仍然存在许多挑战。首先,我们不具备有关数据生成过程的知识。其次,状态不一定实现。因此,这两个问题可能会破坏状态切换模式的可靠性。在应用方面,通常部署此类模型以评估经济或市场状况。从决策上来说,这也可以为策略分配提供有趣的应用。 |
请发表评论