LLM用于时序预测真的不行，连推理能力都没用到

2024年7月10日创建

机器之心｜阅读原文

转载请联系原作者取得授权

语言模型 真的能用于 时序预测 吗？根据贝特里奇头条定律（任何以问号结尾的新闻标题，都能够用「不」来回答），答案应该是否定的。事实似乎也果然如此：强大如斯的 LLM 并不能很好地处理时序数据。​

common.docs_name - LarkCCM_Docs_Menu_Image

时序，即时间序列，顾名思义，是指一组按照时间发生先后顺序进行排列的数据点序列。​

在很多领域，时序分析都很关键，包括疾病传播预测、零售分析、医疗和金融。在时序分析领域，近期不少研究者都在研究如何使用大型 语言模型 （LLM）来分类、预测和检测时间序列中的异常。这些论文假设擅长处理文本中顺序依赖关系的 语言模型 也能泛化用于时间序列数据中的顺序依赖关系。这个假设并不令人意外，毕竟 语言模型 是现在 机器学习 领域的香饽饽。​

那么，语言模型究竟能给传统时序任务带去多大助益？

近日，弗吉尼亚大学和华盛顿大学一个团队尝试解答了这一问题，并最终给出了一个简单却又重要的主张：对于 时序预测 任务，使用 语言模型 的常用方法的表现都接近或劣于基本的消融方法，但前者所需的计算量比后者多几个数量级。​

•
论文标题：Are Language Models Actually Useful for Time Series Forecasting?​

•

论文地址：https://arxiv.org/pdf/2406.16964

这些发现是该团队通过大量消融研究得到的，其中揭示出当前 时序预测 研究中存在一个「令人担忧的趋势」。​

但该团队也表示：「我们的目标并不是暗示 语言模型 永远无法用于时间序列。」事实上，近期一些研究表明语言和时间序列之间具有很好的互动潜力，可以处理时间序列推理和社交理解等任务。​

相反，他们的目标是强调这一惊人发现：对于已有的时间序列任务，现有方法几乎没有用到预训练 语言模型 那与生俱来的推理能力。​

实验设置

该团队使用了三种最先进的 时间序列预测 方法，并为 LLM 提出了三种消融方法：w/o LLM、LLM2Attn、LLM2Trsf。​

为了评估 LLM 在 时间序列预测 任务上的有效性，他们在 8 个标准数据集上对这些方法进行了测试。​

用于语言模型和时间序列的参考方法

他们实验了三种近期的使用 LLM 进行 时间序列预测 的方法。见表 2，这些方法使用的基础模型为 GPT-2 或 LLaMA，同时使用了不同的对齐和微调策略。​

OneFitsAll：OneFitsAll（有时也被称为 GPT4TS）方法会先对输入时间序列使用实例归一化和 patching 技术，然后将其馈送给一个线性层，以获得用于 语言模型 的输入表征。在训练期间， 语言模型 的多头注意力和前馈层会被冻结，而位置嵌入和 层归一化 会得到优化。最终层的作用是将 语言模型 的最终隐藏状态转换成预测结果。​

Time-LLM：使用 Time-LLM 时，输入时间序列会被 patching 技术 token 化，并且多头注意力会将其与 词嵌入 的低维表征对齐。之后，将这个对齐过程的输出与描述性统计特征的嵌入一起输送给一个冻结的预训练 语言模型 。然后，将该 语言模型 的输出表征展平，并使其通过一个线性层，从而得到预测结果。​

LLaTA：LLaTA 嵌入输入时间序列的方式是将每个通道都视为一个 token。该架构的一半是「文本分支」，其使用交叉注意力来将时间序列表征与 语言模型 的 词嵌入 的低维表征对齐。然后将该表征传递给一个冻结的预训练 语言模型 ，得到一个「文本式预测」。同时，该架构的「时间」分支会基于输入时间序列为预训练 语言模型 学习一个低秩适应器，从而得到一个用于推理的「时间预测」。该模型包含考虑这些表征之间的相似度的额外损失项。​

LLM用于时序预测真的不行，连推理能力都没用到​

LLM用于时序预测真的不行，连推理能力都没用到