高频时序预测研究 Idea 周报 2026-W26

周报归档周期 2026-06-22 至 2026-06-28;本次 demo 允许近三年研究启发,实际采集窗口为 2023-06-23 至 2026-06-28。页面按研究类别组织,使用 LLM 或人工 notes 提取文章自身的摘要、亮点、背景、逻辑、方法、数据和结果;没有依据的字段不展示。项目相关迁移只放在“研究启发/管线落点”里,并特别标注高频数据特征工程对 OB/SF/sidecar/MLP/LGB/Linear/LLM 因子管线的可能增益。

65来源条目
22候选想法
5启用数据源
2026-06-16.v4数据源版本
本周候选只代表研究启发,不代表可直接上线。文章摘要只介绍原文研究内容;与当前项目的关联单独放在“研究启发”和“管线落点”字段中,缺失部分保持空缺。

历史周报导览

当前已归档 2 期周报,可直接回看过去每周的研究想法、数据源和候选条目。

查看全部归档

本周汇总导航

本周共 22 条候选 idea,分布在 7 个板块。优先看高分条目、特征工程板块和能直接迁移到 OB/SF/sidecar/模型训练的想法。

重点亮点

AI 辅助因子生成

7 条 · 平均分 17.9
IDEA-2026-W26-a27f038b优先级 高分数 21

Chain-of-Alpha:基于 LLM 的自动公式化 Alpha 挖掘框架

原题:Chain-of-Alpha: LLM-based framework for automated formulaic alpha mining
Curated AI Factor Generation and Backtest Method Research · 2025-08-01 · candidate 打开来源
因子生成 / 表示学习评估审计 / 可比性
LLM 因子生成回测与可比性审计
  • 把 LLM 用于自动公式化 Alpha mining
  • 强调因子生成链与因子优化链的闭环结构
  • 将回测反馈和先验知识纳入候选 Alpha 的迭代改进

该研究关注如何利用大语言模型自动挖掘公式化 Alpha。输入材料显示,文章的核心不是单次让 LLM 生成一个因子表达式,而是强调把候选生成、优化和评估组织成链式闭环:一方面通过因子生成链产生可回测的公式化 Alpha 候选,另一方面通过因子优化链结合回测反馈和先验知识对表达式进行迭代改进。这样的设计试图缓解传统人工因子开发效率低、搜索空间大、经验依赖强的问题,也试图让 LLM 的自然语言和代码生成能力与量化研究中的客观评估环节连接起来。文章标题中的 Chain-of-Alpha 暗示其重点在于流程结构:让 LLM 在已有知识、候选表达、评估结果和反馈之间多轮推理,而不是停留在开放式文本建议。由于 source_reading_status 为 error,输入没有给出论文原文、实验数据、资产范围、样本区间、baseline、绩效指标或具体收益结果,因此不能判断该框架在真实市场数据上的效果,也不能补写模型实现细节。能够确认的是,文章主张用回测反馈和先验知识驱动公式化 Alpha 的自动生成与迭代优化,研究问题属于 LLM 辅助因子生成与自动化 Alpha mining。

定位
评估审计 / 可比性候选
背景
公式化 Alpha 挖掘通常依赖人工经验、反复试错和大量回测评估,搜索空间较大。大语言模型具备生成表达式、解释逻辑和吸收先验知识的能力,因此被用于探索自动化因子发现流程。
逻辑
文章的核心逻辑是将 Alpha 发现组织为链式过程:先生成候选公式,再利用回测反馈和先验知识进行优化,使 LLM 的生成能力与可量化评估形成闭环。
方法
输入材料只说明研究强调因子生成链和因子优化链,并使用回测反馈与先验知识迭代改进公式化 Alpha;没有提供具体 prompt 结构、搜索算法、回测协议或模型实现。
研究启发
可用于每周 idea -> LLM prompt -> factor card -> L0-L4 -> SFT/BT -> 经验库的闭环设计,将外部研究摘要转成受约束的候选表达,再通过 static analyzer、回测反馈和失败案例库反向约束下一轮 LLM 因子生成。
管线落点
优先进入审计/评估方法库,服务 baseline 可比性和 SFT/BT 可信度;候选 routes: llm_factor_pipeline, backtest_audit。
可能增益
可能提升周报 idea 与实际因子实验之间的转化率,让外部研究不只是归档,而能形成下一轮 prompt 的结构化约束。
IDEA-2026-W26-bfce6abb优先级 高分数 20

FactorMAD:基于 LLM 多智能体辩论的可解释 Alpha 因子挖掘

原题:FactorMAD: A Multi-Agent Debate Framework Based on Large Language Models for Interpretable Alpha Factor Mining
Curated AI Factor Generation and Backtest Method Research · 2025-11-01 · candidate 打开来源
因子生成 / 表示学习
LLM 因子生成
  • 把多智能体辩论用于 Alpha 因子挖掘
  • 强调候选因子的可解释性和机制论证
  • 让 LLM 同时承担生成、质询和审查角色

FactorMAD 关注如何用大语言模型支持 Alpha 因子挖掘,并把重点放在候选因子的可解释性和机制讨论上。可获得材料显示,文章的核心方向不是单纯让模型批量生成公式,而是引入多智能体辩论框架,让不同角色围绕 Alpha 候选的经济含义、表达合理性和可解释机制进行讨论,从而提高因子挖掘过程的透明度。其研究问题来自量化投资中常见的因子发现困境:自动生成方法可能给出形式复杂但经济动机不足的表达式,而人工研究又受限于效率和覆盖范围。多智能体辩论的设计意图,是让 LLM 不只承担生成器角色,也承担质询、反驳和解释角色,使候选因子在进入后续评估前已经经过一定的逻辑审查。现有材料没有给出具体数据集、实验设计、回测指标或对照结果,因此不能判断其性能提升幅度、适用市场或统计显著性。文章最值得关注的部分在于把 Alpha 挖掘从“生成表达式”推进到“围绕机制进行结构化论证”,强调可解释性是自动因子发现的一等目标,而不是事后补充说明。

定位
因子生成 / prompt 候选
背景
Alpha 因子自动挖掘容易产生难解释、机制不清或只在回测中有效的候选信号,因此需要在生成阶段加强经济含义和可解释性审查。
逻辑
通过多个 LLM 智能体围绕候选因子的机制、合理性和解释进行辩论,让生成过程包含质询和反思环节。
方法
材料仅说明使用基于 LLM 的多智能体辩论框架进行 Alpha 因子挖掘,未提供更细的 agent 分工、提示词、评估器或优化流程。
研究启发
可让 LLM 因子 pipeline 增加 debate/reviewer 阶段:一个 agent 提机制,一个 agent 查泄露,一个 agent 查字段合同,一个 agent 查经济含义,以提升候选因子机制质量并减少不可解释表达式。
管线落点
可作为 LLM prompt、taxonomy 或人工研究背景;候选 routes: llm_factor_pipeline。
可能增益
可能提升候选因子机制质量,减少看似复杂但实际不可解释或不可交易的表达式。
IDEA-2026-W26-e82cae75优先级 高分数 20

LLM 驱动的自动稳健特征工程

原题:LLM-Driven Automated Robust Feature Engineering
Curated AI Factor Generation and Backtest Method Research · 2025-01-01 · candidate 打开来源
因子生成 / 表示学习高频特征工程
LLM 因子生成高频数据特征工程
  • 将 LLM 用于自动化特征工程而不只是文本解释
  • 结合进化优化搜索稳健且可解释的候选特征
  • 研究目标覆盖特征生成、筛选和迭代改进

该研究讨论用大语言模型驱动自动化稳健特征工程,输入材料显示其核心思想是把 LLM 与进化优化结合,用于发现稳健且可解释的特征。文章的研究背景是传统特征工程高度依赖人工经验,尤其在金融或复杂预测任务中,候选特征空间庞大,手工构造、筛选和验证成本较高。LLM 可以根据任务描述、领域知识和已有变量生成候选特征表达,进化优化则可以在候选空间中进行选择、变异、组合和迭代改进,从而形成比一次性人工设计更系统的搜索过程。题目中的 robust feature engineering 表明研究重点不仅是生成新特征,还包括稳健性和可解释性,即希望候选特征在不同数据切分、市场状态或任务环境下保持较好表现,并能被研究者理解和审查。由于 source_reading_status 为 error,输入没有提供论文原文、具体算法流程、数据集、实验设置、指标、baseline 或结果数值,因此不能补写实际效果或实现细节。基于现有材料,只能确认该文属于 LLM 辅助特征发现方向,主张通过 LLM 的语义生成能力和进化优化的搜索能力自动构造稳健、可解释特征。

定位
高频数据特征工程候选
背景
复杂预测任务中的特征工程通常依赖专家经验,候选空间大、验证成本高,并且生成的特征可能缺乏稳健性或可解释性。
逻辑
文章的核心逻辑是用 LLM 生成和解释候选特征表达,再用进化优化在候选空间中搜索、组合和迭代,从而提高自动特征发现的系统性、稳健性和可解释性。
方法
输入材料只说明研究结合 LLM 与进化优化进行自动特征发现,没有给出具体进化算子、适应度函数、特征约束、评估协议或实现细节。
特征工程
文章主题直接指向自动特征工程,重点在于候选特征生成、特征组合、稳健性筛选和可解释表达。输入材料未说明是否专门使用高频数据,也未给出订单簿、主动买卖、微价格或队列状态等具体高频特征。
研究启发
可用于 LGB/Linear/MLP 特征工程侧:让 LLM 生成候选表达后先经过 static analyzer、相关性去重、稳定性 proxy 和数据可得性检查,再进入 SFT/BT;也可维护候选特征池、失败经验库和分市场状态表现记录,使 LLM 从生成单个因子扩展为维护特征发现流程。
管线落点
优先进入高频 feature pool / sidecar taxonomy,同时服务 LGB/Linear/MLP 和 LLM factor prompt;候选 routes: llm_factor_pipeline, hft_feature_engineering。
可能增益
潜在增益是把 AI 从“写单个因子”升级为“维护候选特征池和失败经验库”。
IDEA-2026-W26-31e382a1优先级 高分数 19

AlphaAgent:用正则化探索对抗 Alpha 衰减的 LLM Alpha 挖掘框架

原题:AlphaAgent: LLM-Driven Alpha Mining with Regularized Exploration
Curated AI Factor Generation and Backtest Method Research · 2025-02-24 · candidate 打开来源
因子生成 / 表示学习
LLM 因子生成
  • 把 Alpha 衰减作为 LLM 因子挖掘的核心问题处理
  • 用 AST 相似度约束候选因子的原创性
  • 用假设-因子语义一致性约束保留金融逻辑
  • 在中美市场实验中报告更高有效因子比例和更低 token 消耗

AlphaAgent 研究的是在 Alpha 因子挖掘中如何缓解因子衰减。文章指出,传统遗传规划和强化学习方法往往过度优化历史表现,容易因过拟合和复杂结构生成在实盘中快速失效的因子;直接使用 LLM 虽然能利用金融知识和语言推理能力,但也容易依赖已有常识,重复 RSI、动量、价值、规模等拥挤信号,导致因子同质化和更快衰减。为此,文章提出一个自治的多智能体框架 AlphaAgent,将 LLM 生成与专门设计的正则化机制结合起来,使因子探索同时满足原创性、金融假设一致性和复杂度约束。框架包含三个关键约束:第一,用抽象语法树 AST 与已有 Alpha 库进行相似度检测,通过子树同构等方式惩罚与既有因子过近的表达;第二,用 LLM 评估市场假设、因子描述和公式之间的语义一致性,避免表达式偏离原始经济动机;第三,用 AST 结构和参数数量控制复杂度,抑制过度工程化和过拟合。工作流从 idea agent 提出市场洞察和假设开始,factor agent 构造简洁且有原创性的因子,之后经过开发、回测和反馈形成闭环,逐步迭代出更能捕捉新兴市场无效性的因子族。实验覆盖 2021 年 1 月至 2024 年 12 月的中国 CSI 500 和美国 S&P 500 市场,并比较牛熊不同市场状态。论文报告称,考虑交易成本后,框架在两个市场分别取得 11.0% 年均超额收益、IR 1.5,以及 8.74% 年均超额收益、IR 1.05;同时有效因子比例提升 81%,token 消耗减少 30%。

定位
因子生成 / prompt 候选
背景
Alpha 衰减来自过拟合、p-hacking、市场拥挤和已有异常被充分利用。传统 GP/RL 容易过度追逐历史指标,LLM 方法又可能生成同质化因子,因此需要在自动挖掘阶段加入原创性、经济含义和复杂度约束。
逻辑
文章认为抗衰减的 Alpha 挖掘不能只最大化历史回测表现,而要在探索阶段同时控制相似度、语义一致性和结构复杂度,使生成因子更原创、更贴合市场假设且不过度复杂。
方法
AlphaAgent 使用闭环多智能体流程:idea agent 提出市场假设,factor agent 基于假设生成因子,系统进行开发、回测与反馈。正则化包括 AST 相似度原创性约束、LLM 语义一致性评分、AST 复杂度和参数数量控制。
数据
实验覆盖中国 CSI 500 和美国 S&P 500 市场,时间范围为 2021 年 1 月至 2024 年 12 月,并考察牛市和熊市等不同市场状态。
结果
论文报告 AlphaAgent 在 CSI 500 和 S&P 500 上分别实现 11.0% 和 8.74% 的年均超额收益,IR 分别为 1.5 和 1.05;有效因子比例提升 81%,token 消耗减少 30%,并表现出较强抗衰减能力。
研究启发
与我们的 llm_factor_pipeline 高度契合:可把 L0-L4、SFT、BT 失败原因写回经验库,用于下一轮 prompt 和候选因子约束,减少重复 rolling-window 因子、降低 invented field 风险,提高 LLM 因子生成的有效探索率。
管线落点
可作为 LLM prompt、taxonomy 或人工研究背景;候选 routes: llm_factor_pipeline。
可能增益
潜在增益是减少重复 rolling-window 因子、降低 invented field 风险,提高 LLM 因子生成的有效探索率。
IDEA-2026-W26-7c9e1e60优先级 高分数 19

面向稀疏投资组合优化的进化式 LLM Alpha 因子发现

原题:Evolutionary Alpha Factor Discovery with Large Language Models for Sparse Portfolio Optimization
Curated AI Factor Generation and Backtest Method Research · 2025-11-01 · candidate 打开来源
因子生成 / 表示学习
LLM 因子生成
  • 将稀疏组合选择表述为因子信号驱动的 top-m 排名
  • 用 LLM 自动生成并迭代改进 Alpha 因子池
  • 在 Fama-French 基准和中美真实市场数据上进行实验
  • 消融指出提示词、因子多样性和 LLM 后端都会影响效果

这篇文章研究稀疏投资组合优化中的 Alpha 因子自动发现问题。传统稀疏组合方法通常依赖历史收益估计和相对静态的优化目标,但金融市场状态不断变化,历史估计容易失效,组合选择也会受高波动和大股票池环境影响而变得不稳定。文章提出用大语言模型自动生成并迭代改进 Alpha 因子,把资产选择重新表述为由因子信号引导的 top-m 排名问题,从而把“选哪些资产进入稀疏组合”转化为“哪些资产在当前因子池下排名更靠前”。其核心机制是一个进化式反馈循环:LLM 生成候选因子,因子信号用于资产选择和组合构建,组合或因子的表现再反馈给后续生成过程,持续增强因子池。与一次性生成候选不同,该框架强调迭代改进和因子池演化,使因子发现能随着表现反馈逐步调整。实验部分覆盖五个 Fama-French 基准数据集,以及美国和中国两个真实市场数据集。摘要报告称,该方法相较统计型和优化型基线表现更好,尤其在高波动和大规模资产池场景中优势更明显。消融实验进一步显示,提示词设计、因子多样性和 LLM 后端选择都会显著影响最终效果。文章的贡献在于把 LLM 因子生成、进化搜索和稀疏组合构建连接成同一闭环,并把解释性因子信号作为组合优化的适应性输入。现有材料没有给出具体收益率、风险指标、调仓频率或交易成本细节,因此对其实际可交易性仍需依赖正文和补充材料进一步判断。

定位
因子生成 / prompt 候选
背景
稀疏投资组合优化需要从较大资产池中选择少量资产,但传统方法依赖历史收益估计和静态目标,面对市场动态变化、高波动和大股票池时适应性不足。
逻辑
文章将资产选择改写为因子信号驱动的 top-m 排名问题,并通过进化式反馈循环不断改进因子池,使组合选择和因子发现相互促进。
方法
框架使用 LLM 自动发现 Alpha 因子,并通过表现反馈进行迭代优化;因子信号指导 top-m 资产排名,进化搜索机制根据结果持续增强因子池。
数据
实验使用五个 Fama-French 基准数据集,以及美国和中国两个真实市场数据集。
结果
摘要报告该方法稳定优于统计型和优化型基线,尤其在高波动和大规模资产池环境中表现突出;消融实验显示提示词设计、因子多样性和 LLM 后端选择很重要。
研究启发
可把我们的 discovery -> SFT -> BT 结果变成进化反馈:保留机制、变异表达、约束字段、淘汰低质量模式,让 LLM 因子生成从一次性 prompt 变成带记忆的持续研究系统。
管线落点
可作为 LLM prompt、taxonomy 或人工研究背景;候选 routes: llm_factor_pipeline。
可能增益
可能让 LLM 因子生成从一次性 prompt 变成带记忆的持续研究系统。
IDEA-2026-W26-9dfdbf58优先级 高分数 17

用 LLM 自动发现量化投资策略

原题:Automate Strategy Finding with LLM in Quant Investment
Curated AI Factor Generation and Backtest Method Research · 2025-11-01 · candidate 打开来源
因子生成 / 表示学习评估审计 / 可比性
LLM 因子生成
  • 提出风险感知的三阶段多智能体策略发现框架
  • 用 LLM 生成可执行 Alpha 因子候选
  • 评估阶段同时考虑市场状态、预测质量和类别平衡
  • 在 SSE50 上报告 53.17% 累计收益和下行保护优势

这篇文章提出一个用于量化投资自动策略发现的三阶段框架,将大语言模型放入风险感知的多智能体系统中,用于生成、筛选和组合 Alpha 因子。文章的出发点是传统深度学习金融模型在真实市场中较脆弱,容易受到市场状态变化、数据分布漂移和风险暴露变化的影响,因此仅依赖黑箱预测模型难以形成稳定策略。框架第一阶段使用经过提示工程设计的 LLM,在多类金融数据上生成可执行的 Alpha 因子候选;第二阶段通过多模态 agent-based evaluation 进行筛选,评价维度包括市场状态、预测质量,并同时保持因子类别平衡,避免候选集过度集中于单一类型信号;第三阶段进行动态权重优化,使组合权重能够随市场条件调整。文章强调,LLM 在这里不仅用于文本生成,而是被嵌入一个可扩展的金融信号提取和投资组合构建架构中,与风险感知评估和动态组合优化共同工作。实验覆盖中国和美国市场状态,并与既有基准比较。摘要报告称,整体框架显著优于所有基准;在 SSE50 上,2023 年 1 月至 2024 年 1 月期间累计收益为 53.17%,并表现出更好的风险调整表现和下行保护能力。文章的亮点在于把 LLM 生成、agent 评估、市场状态过滤、类别平衡和动态权重优化串成完整流程,而不是只展示单个因子生成模块。现有材料主要来自摘要和页面元数据,尚未提供更细的因子定义、交易成本处理、调仓规则、基准列表和统计检验细节,因此结果解释仍需结合 PDF 正文进一步确认。

定位
因子生成 / prompt 候选
背景
传统深度学习模型在金融应用中容易受市场状态变化和分布漂移影响,策略表现较脆弱,因此需要更可解释、更可扩展且能感知风险的自动策略发现框架。
逻辑
文章把 LLM 生成可执行 Alpha 候选、多智能体风险评估和动态权重优化结合起来,使策略发现从信号生成延伸到筛选和组合构建。
方法
三阶段框架包括:提示工程驱动的 LLM 生成 Alpha 因子候选;基于多模态 agent 的评估,按市场状态、预测质量和类别平衡筛选因子;根据市场条件进行动态权重优化。
数据
实验覆盖中国和美国市场状态;摘要特别报告 SSE50 在 2023 年 1 月至 2024 年 1 月期间的结果。
结果
摘要称整体框架显著优于所有基准,在 SSE50 上取得 53.17% 累计收益,并体现出更好的风险调整表现和下行保护能力。
研究启发
可映射到我们的多 agent 因子发现:生成、批评、静态分析、回测代理、人工 review 分工更明确,潜在增益是提高因子代码可执行率和研究流程可追溯性,减少人工从零构思成本。
管线落点
可作为 LLM prompt、taxonomy 或人工研究背景;候选 routes: llm_factor_pipeline。
可能增益
潜在增益是提高因子代码可执行率和研究流程可追溯性,减少人工从零构思的成本。
IDEA-2026-W26-a544a862优先级 中分数 9

面向宏观因子排序的泄漏感知 LLM 预测基准:以实时 nowcast 作为决策时输入

原题:Leakage-Aware Benchmarking of LLM Forecasting: Real-Time Nowcasts as the Decision-Time Input for Macro Factor Ranking
arXiv HFT Time-Series Forecasting · 2026-06-21 · candidate 打开来源
因子生成 / 表示学习评估审计 / 可比性模型训练 / 序列预测
LLM 因子生成回测与可比性审计
  • 把宏观变量发布时间滞后纳入 LLM 预测基准,直接针对信息泄漏问题
  • 用 Cleveland Fed CPI nowcast 替代月末不可见的最终 CPI,构造更真实的决策时输入
  • 将 LLM actor-critic 与 kNN analog、ridge 基线放在同一信息约束下比较
  • 结论谨慎,强调 36 个月样本统计功效不足,配置检验不等于可交易策略

这篇文章关注检索增强 LLM 在金融预测基准中常见的信息泄漏问题:许多宏观特征虽然标注为目标月份的数据,但在真实月末决策时尚未发布,直接用于回测会把未来信息带入模型。作者以美国权益风格因子月度排序为任务,构建了一个严格遵守决策时可观测性的 walk-forward 基准,评估窗口为 2023-04 至 2026-03。每个月末,模型只能读取当时可见的信息,包括滞后一月处理的 FRED 宏观变量、近 30 天宏观事件摘要,以及 Cleveland Fed 归档的当日 CPI nowcast,用它替代尚未发布的当月 CPI。方法上,系统先用 4 维标准化宏观状态向量检索历史相似状态,并设置至少 12 个月 embargo;随后 critic LLM 根据历史 analog 与当前宏观状态压缩出一条战术规则;actor LLM 再把当前实时状态和近期规则映射为七个美国权益风格因子的排序分数。实验显示,完整流程的月度 Spearman rank IC 中位数为 +0.154,三个连续且不重叠的 12 个月子区间均为正均值,但均值 IC 的统计功效不足,bootstrap 95% 置信区间包含 0。与同样决策时约束下的非 LLM 基线相比,kNN 宏观 analog 模型取得了相近的中位数 IC,说明实时通胀 nowcast 与宏观相似检索解释了相当一部分信号。完整 LLM 流程在均值 IC 和 long-top-2/short-bottom-2 的配置 sanity check 上更强,年化收益 +4.2%、Sharpe +0.71,但作者明确强调这不是可部署交易结论,样本只有 36 个月,且需要更长的冻结实时输入档案才能扩大检验。文章的核心价值不在于宣称 LLM 显著优越,而在于把预测能力、实时可观测信息和检索机制拆开审计,并给出一个更接近真实决策约束的宏观因子排序评估框架。

定位
评估审计 / 可比性候选
背景
宏观驱动的金融预测中,CPI、失业率等变量存在发布时间滞后。若回测在月末直接读取目标月份最终公布值,会产生未来函数。LLM 与 RAG 预测系统通常会读取宏观叙事、事件摘要和历史相似状态,因此更需要明确每个输入在决策时是否真实可见。
逻辑
文章的逻辑是先消除宏观特征的发布时间泄漏,再比较 LLM 架构与非 LLM 检索基线在同一决策时信息集下的表现。若 kNN analog 已能恢复相近中位数 IC,则信号主要来自实时 nowcast 和宏观相似状态;若 LLM 在极端排序或配置检验上更强,则其边际贡献可能集中在顶部和底部因子的排序质量。
方法
方法包括滞后处理 FRED CPI 与失业率,用 Cleveland Fed daily CPI nowcast 代替未发布当月 CPI;以标准化宏观状态向量进行 analog 检索,并加入至少 12 个月 embargo;使用 7B 开源 LLM 的 critic 读取 analog 和当前状态生成一条战术规则;actor LLM 根据当前状态和近期规则为七个美国权益风格因子打分。对照组包括 kNN macro analog、nowcast-only ridge、macro+nowcast ridge,并进行 IC、子区间稳定性、long-short sanity check、K 敏感性、极端排名重合度和 moving-block bootstrap 检查。
数据
评估窗口为 2023-04 至 2026-03,共 36 个月度决策点。输入包括滞后校正后的 FRED 宏观变量、Cleveland Fed 归档 daily CPI nowcast、近 30 天 FOMC 与 CPI 等宏观事件摘要、美国权益风格因子收益,以及从 1990-04 到决策日前至少 12 个月之前的历史检索池。
结果
完整 LLM 流程月度 Spearman rank IC 中位数为 +0.154,三个连续 12 个月子区间均值为正,但均值 IC 的 bootstrap 95% 置信区间包含 0,置换检验 p=0.11。kNN macro analog 取得相近中位数 IC,说明 nowcast 与宏观相似检索贡献较大。long-top-2/short-bottom-2 sanity check 中,完整 LLM 年化收益 +4.2%、Sharpe +0.71、最大回撤 -4.7%;kNN 为 +1.5%、Sharpe +0.29。作者强调该配置检验不是可部署交易声明。
研究启发
对 OB/SF/sidecar/MLP/LGB/Linear/LLM 因子管线的启发主要是评估审计层面:所有外生宏观、新闻、事件或 nowcast 类 sidecar 输入都应按决策时间冻结,并显式记录发布时间、可观测时间和 embargo;LLM 因子生成可以把检索 analog、规则压缩和打分拆开,与 kNN、Linear、LGB 等同信息集基线比较,避免把数据泄漏或检索信号误判为 LLM 能力。
管线落点
优先进入审计/评估方法库,服务 baseline 可比性和 SFT/BT 可信度;候选 routes: llm_factor_pipeline, backtest_audit。
可能增益
潜在增益在于减少不可比实验、泄露和过拟合带来的误判,让 SFT/BT 结论更可信。

其他研究背景

1 条 · 平均分 10.0
IDEA-2026-W26-e8390db0优先级 中分数 10

SkyJEPA:用于四旋翼零样本仿真到真实控制的长时域世界模型学习

原题:SkyJEPA: Learning Long-Horizon World Models for Zero-Shot Sim-to-Real Control of Quadrotors
arXiv HFT Time-Series Forecasting · 2026-06-22 · candidate 打开来源
模型训练 / 序列预测
人工复核
  • 把 JEPA 潜在表示预测用于高频四旋翼实时控制
  • 通过 physics-inspired prober 连接潜在世界模型与可解释物理状态
  • 强调长时域稳定性、实时推理和零样本 sim-to-real 泛化的统一要求
  • 使用域随机化仿真流程减少真实飞行数据采集依赖

这篇文章研究四旋翼无人机实时控制中的长时域动力学建模问题。作者指出,敏捷飞行任务要求控制器在不确定环境中反复推演未来状态,而理想的世界模型需要同时满足四项条件:长时域预测准确且物理可行、能够输出位置/速度/姿态/角速度等可解释状态、能在嵌入式硬件上进行高频实时推理,并能在不同轨迹、控制目标和平台配置之间零样本泛化。传统解析动力学模型计算高效但难以覆盖气动阻力、执行器延迟、桨叶与机体相互作用、风扰动和硬件变化;常见神经网络动力学模型虽能从数据学习非线性效应,但通常依赖自回归滚动预测,一步误差会随预测时域累积,导致漂移、不稳定或物理不合理的轨迹。SkyJEPA 将 Joint Embedding Predictive Architecture 引入高频四旋翼控制,不直接重构未来状态或观测,而是在结构化潜在空间中预测未来表示,以减少对噪声、偏置和任务无关细节的建模负担。为了让潜在表示可用于模型控制,论文设计了 physics-inspired prober,把冻结的潜在滚动映射到有物理意义的状态变量,并结合轻量运动学结构实现可解释长时域预测。控制层面,作者把学习到的潜在动力学模型嵌入采样式最优控制框架,在资源受限的机载硬件上进行实时闭环控制。数据方面,论文提出了基于域随机化仿真的自动数据生成流程,降低昂贵且有安全风险的真实飞行采集依赖。实验包括开环预测和户外闭环飞行评估,并与现有动力学学习基线及关键设计选择进行对比;论文声称结果显示模型具备准确预测、稳健零样本 sim-to-real 转移和跨操作条件泛化能力。文章边界在于材料显示其仍处于 under review,摘录没有给出完整表格数值和所有基线细节。

定位
研究背景 / 人工讨论
背景
四旋翼无人机在配送、巡检、搜救和环境监测等任务中需要在复杂、不确定、快速变化的环境里执行敏捷机动。模型控制依赖可靠的未来状态推演,但真实飞行受到气动、执行器、硬件和扰动等难以精确建模因素影响。
逻辑
文章认为自回归状态预测会放大长时域误差,而潜在空间预测可以更专注于控制相关动力学;再用物理启发探针把潜在表示解码为可解释状态,使学习模型既能长时域稳定预测,又能进入约束和代价明确的控制器。
方法
提出 JEPA-style latent dynamics model,在潜在空间预测未来表示;引入 physics-inspired prober,将冻结潜在滚动映射到位置、速度、姿态、角速度等状态;再把模型接入采样式最优控制框架,用于嵌入式实时四旋翼控制。
数据
论文提出域随机化仿真的自动数据生成流程,并进行了开环预测实验和户外闭环真实飞行评估;摘录还提到机载 GPS 定位、集体推力和体速率命令等闭环控制设置。
结果
论文摘要称,开环和户外闭环实验显示 SkyJEPA 具有准确长时域预测、稳健零样本仿真到真实迁移,以及跨多种操作条件的泛化能力;输入摘录未提供完整数值表。
研究启发
启发重点需要人工精读后补充,当前只作为研究背景候选。
管线落点
可作为 LLM prompt、taxonomy 或人工研究背景;候选 routes: manual_review。
可能增益
潜在增益待人工确认,当前不建议直接进入训练或回测。

时序预测模型与 LOB

5 条 · 平均分 21.6
IDEA-2026-W26-616a0955优先级 高分数 32

TLOB:基于 LOB 数据和双注意力机制的股价趋势预测 Transformer 模型

原题:A Novel Transformer Model with Dual Attention for Stock Price Trend Prediction with Limit Order Book Data
Curated Model and Financial Time-Series Research · 2025-02-21 · candidate 打开来源
模型训练 / 序列预测数据坐标 / 高频状态评估审计 / 可比性
MLP 时序预测LLM 因子生成
  • 同时提出轻量 MLPLOB 与双注意力 TLOB,强调复杂模型必须和强 MLP 基线比较
  • 新标签方法解耦平滑窗口和预测 horizon,减少 horizon bias
  • 跨 FI-2010、NASDAQ 股票和 Bitcoin 数据验证模型表现
  • 将平均 spread 纳入趋势阈值后性能下降,说明预测指标不等于可交易收益

论文研究基于限价订单簿数据的价格趋势预测问题,认为 LOB 同时包含价格档位、买卖方向、挂单量和时间演化,是金融市场中最细粒度的供需状态表达,但其非平稳、低信噪比和跨资产差异使短期趋势预测非常困难。作者首先指出,既有深度学习模型在不同市场状态和资产之间泛化能力不足,而复杂架构并不一定必然优于简单模型。为此,论文提出两个模型:MLPLOB 和 TLOB。MLPLOB 是适配 LOB 序列的轻量 MLP 架构,由 feature-mixing MLP 和 temporal-mixing MLP 组成,分别沿特征维和时间维建模,用较简单的矩阵运算捕捉档位结构与时间依赖。TLOB 则是基于 Transformer 的双注意力模型,显式关注 LOB 数据中的空间依赖和时间依赖,使模型能够在不同市场微观结构、较长预测 horizon 和波动环境中自适应聚焦关键信息。论文还提出新的标签构造方法,将平滑窗口 k 与预测 horizon h 解耦,以减少传统标签方法中 horizon 与平滑长度绑定造成的偏差;同时讨论用平均 bid-ask spread 作为趋势阈值,把主要交易成本纳入趋势定义。实验覆盖 FI-2010 基准、NASDAQ 中 Tesla 和 Intel 股票数据,以及 Bitcoin 数据集,并在四个预测 horizon 上与多类 SoTA 模型比较。结果显示,TLOB 在所有数据集和 horizon 上超过已有方法,在 FI-2010 上平均 F1 提升 3.7,在 Tesla 和 Intel 上分别平均提升 1.3 和 7.7,在 Bitcoin 数据上平均提升 1.1。论文还发现股票价格可预测性随时间下降,F1 分数下降约 6.68,说明市场效率提升会削弱可利用信号;当趋势阈值按平均 spread 定义后,模型表现恶化,凸显分类预测转化为可盈利交易策略的难度。

定位
数据坐标 / sidecar 候选
背景
限价订单簿记录多档买卖价格和数量的实时供需状态,是高频价格趋势预测的重要数据源,但市场非平稳、资产差异和交易成本使模型泛化和实用性评估困难。
逻辑
论文的核心逻辑是同时检验简单 MLP 与复杂 Transformer:若轻量 MLP 已能形成强基线,则复杂模型必须通过更好的空间和时间依赖建模、标签定义和跨市场验证证明其必要性。
方法
提出 MLPLOB 和 TLOB。MLPLOB 使用特征混合与时间混合 MLP;TLOB 使用双注意力机制捕捉 LOB 的档位空间依赖和时间依赖。标签方法将平滑窗口与预测 horizon 解耦,并测试以平均 spread 定义趋势阈值。
数据
实验使用 FI-2010 基准数据集、NASDAQ 中 Tesla 与 Intel 股票数据,以及 Bitcoin LOB 数据集,并在四个预测 horizon 上评估。
结果
TLOB 在 FI-2010 上平均 F1 提升 3.7,在 Tesla 和 Intel 上分别平均提升 1.3 和 7.7,在 Bitcoin 数据上平均提升 1.1;论文还报告股票趋势可预测性随时间下降,F1 下降约 6.68;用平均 spread 作为阈值后性能恶化。
特征工程
文章重点围绕多档 LOB 快照序列建模,输入包含 10 档买卖价格与数量;特征工程重点不在手工衍生指标,而在档位维、买卖侧和时间维依赖的表示学习,以及更合理的趋势标签构造。
研究启发
对我们的 OB/SF/sidecar/MLP/LGB/Linear/LLM 因子管线的启发是:应把 MLP 作为强基线,并在相同输入窗口、label horizon、normalization 和 backtest contract 下比较 MLP、GRU、Transformer、Linear、LGB;双注意力可作为档位维和时间维交互建模的候选结构。
管线落点
优先判断是否能成为 OB 1s exact-axis sidecar;候选 routes: mlp_codeX, llm_factor_pipeline。
可能增益
可为 mlp_codeX 增加模型结构改进路线:档位维 attention、时间维 attention、轻量 MLP baseline、以及模型复杂度与收益增益的可比审计。
IDEA-2026-W26-75704704优先级 高分数 29

LiT:限价订单簿Transformer

原题:LiT: limit order book transformer
Curated Model and Financial Time-Series Research · 2025-10-01 · candidate 打开来源
数据坐标 / 高频状态模型训练 / 序列预测
LLM 因子生成MLP 时序预测
  • 提出完全去卷积化的LOB Transformer架构
  • 用结构化patch建模盘口空间层级与时间依赖
  • 使用Binance毫秒级Level 2订单簿进行多月、多区间评估
  • 分析patch配置和fine-tuning下的分布漂移适应性

论文提出Limit Order Book Transformer(LiT),用于基于高频限价订单簿数据预测短期市场运动。文章的出发点是,LOB数据具有深层层级结构、强噪声、非平稳和高波动特征,传统手工特征、统计模型以及单纯依赖卷积局部归纳偏置的深度模型,难以充分捕捉买卖两侧、价格层级和时间窗口之间的复杂依赖。已有DeepLOB、TransLOB等方法通常使用CNN提取空间特征,再结合LSTM或Transformer建模时间关系;LiT则试图完全移除卷积层,用结构化patch和自注意力直接表示LOB的空间与时间依赖。数据部分,论文从Binance交易所采集Level 2高频订单簿,按毫秒级重建完整订单簿,取买卖两侧各前20档价格和聚合量作为输入,每个时间点包含80个价量特征。实验包含2024年9月整月数据,以及10月、11月、12月各第二周数据,总计重建超过100万个LOB快照,并以中间价变化作为市场运动代理。模型结构包含三个部分:首先将LOB表示为价格与成交量两个通道的三维输入,并切分为能保留盘口结构含义的patch;其次通过线性投影和位置嵌入得到patch表示,再用Transformer自注意力编码不同价格层、买卖侧和时间片之间的依赖;最后接入LSTM层增强长期时间建模能力。论文在多个预测区间上与传统机器学习、常规深度学习以及CNN类先进基线比较,报告LiT整体上持续优于对照模型;同时进行patch大小分析,指出较窄时间窗口与更深空间覆盖能明显改善预测表现。文章还测试分布漂移下的微调能力,认为LiT通过fine-tuning能够维持较强性能,因而更适合动态快速变化的金融环境。其适用边界是模型评估集中在Binance加密资产LOB和特定预测区间,实际市场制度、撮合规则和资产类别变化仍可能影响泛化。

定位
数据坐标 / sidecar 候选
背景
论文背景是自动化交易推动高频LOB数据快速增长,短期市场运动预测成为金融AI的重要问题。LOB具有价格层级、买卖两侧、时间演化和非平稳噪声等复杂结构,给特征表示带来挑战。
逻辑
核心逻辑是将订单簿看作具有空间层级和时间窗口的结构化张量,用patch保留局部盘口结构,再用Transformer自注意力学习跨价格层、跨时间步和跨买卖侧的依赖,最后用LSTM补充序列动态建模。
方法
LiT将LOB输入组织为价格和成交量两个通道,切分结构化patch,经线性投影和位置嵌入后送入Transformer层,再接LSTM层进行时间依赖建模。论文还比较不同patch配置,并使用fine-tuning评估市场分布变化下的适应性。
数据
数据来自Binance交易所Level 2高频订单簿,毫秒级重建订单簿,使用买卖两侧各20档价格和聚合量,单个时间点80个特征。数据包括2024年9月整月,以及10月、11月、12月各第二周,重建超过100万个LOB快照。
结果
论文报告LiT在多个预测区间上持续优于传统机器学习、常规深度学习和CNN类先进基线;patch实验显示较窄时间窗口和更深空间覆盖有助于提升表现;fine-tuning实验显示模型在市场分布变化下仍能保持较强性能。
特征工程
高频特征工程重点在于不把LOB价量列简单展平,而是保留价格层级、买卖两侧、时间窗口和价量双通道结构;结构化patch可表达局部盘口形态、深度覆盖和短时变化模式。
研究启发
可结合我们的OB/SF/MLP/LGB/Linear/LLM因子管线,将10档或20档盘口按买卖侧、价格层和时间窗口组织为结构化patch,作为MLP结构升级、LOB表征学习或LLM因子生成的输入模板。
管线落点
优先判断是否能成为 OB 1s exact-axis sidecar;候选 routes: llm_factor_pipeline, mlp_codeX。
可能增益
可能改善模型对价格层相对位置、bid/ask 不对称、局部盘口形态的吸收,适合作为 MLP 结构升级方向。
IDEA-2026-W26-9cce7f91优先级 高分数 29

Deep Limit Order Book Forecasting:深度限价订单簿预测与 LOBFrame 基准

原题:Deep Limit Order Book Forecasting
Curated Model and Financial Time-Series Research · 2024-03-14 · candidate 打开来源
数据坐标 / 高频状态模型训练 / 序列预测因子生成 / 表示学习
LLM 因子生成
  • 发布 LOBFrame,用于大规模 LOB 数据处理和深度模型评估
  • 强调股票微观结构会影响深度学习预测效果
  • 指出高机器学习指标不必然对应可交易信号
  • 提出以完整交易可预测性衡量预测实用性的评估框架

论文研究高频限价订单簿中间价变化的深度学习预测问题,并发布 LOBFrame 开源代码库,用于高效处理大规模 LOB 数据和评估深度模型预测能力。文章认为现代电子市场通过 FIFO 规则组织限价单、市场单和撤单,LOB 是市场供需、流动性和交易意图的核心状态表达;但金融市场低信噪比、参与者异质、信息不对称和高频交易竞争,使中间价预测既有统计挑战也有实用评估挑战。论文的研究对象是一组在 NASDAQ 交易的异质股票,重点考察不同股票微观结构特征如何影响深度模型效果。文章不仅关注模型分类或预测指标,还批评传统机器学习指标不足以评价 LOB 预测质量,因为高预测分数并不必然对应可执行交易信号。为弥合学术指标与实际交易之间的差距,论文提出一种 operational framework,强调评估预测在完整交易中的实际可用性,即关注模型能否正确预测足以完成交易的价格变动,而不是只在静态样本上提高准确率或 F1 等指标。论文基于 LOBFrame 建立数据处理和训练评估流程,分析流动性、spread 等微观结构属性,并评估 state-of-the-art 深度学习模型在不同股票上的表现。主要结论有两点:第一,股票自身的微观结构会显著影响深度学习方法的有效性,模型表现不能脱离资产流动性、价差和订单簿统计性质讨论;第二,较高的机器学习预测能力并不必然产生可交易信号,传统分类指标可能高估模型在真实交易中的价值。论文的贡献在于提供了一个可复现的数据处理和模型评估基础设施,同时提出从市场微观结构和交易可执行性角度重新审视深度 LOB 预测的边界。

定位
数据坐标 / sidecar 候选
背景
限价订单簿记录市场参与者提交、成交和撤销订单后的实时供需状态,是电子市场中价格形成和流动性变化的核心数据结构;高频交易和市场非平稳性使 LOB 预测非常困难。
逻辑
论文认为 LOB 预测不能只作为一般时间序列 benchmark 处理,必须结合股票微观结构和交易执行条件评估;预测指标高并不代表信号能在真实市场中完成交易并产生价值。
方法
发布 LOBFrame 开源框架,用于大规模 LOB 数据处理、模型训练和预测评估;比较 state-of-the-art 深度学习模型,并提出关注完整交易可预测概率的 operational evaluation framework。
数据
使用 NASDAQ 交易的一组异质股票的高频限价订单簿数据,分析其流动性、spread 等微观结构差异,并据此评估模型预测中间价变化的能力。
结果
论文报告两项核心结论:股票微观结构特征会影响深度学习模型有效性;高预测能力不一定对应可操作交易信号,传统机器学习指标不足以评价 LOB 预测质量。具体数值结果在输入摘录中未充分展开。
特征工程
文章强调 LOB 层级价格、挂单量、bid-ask spread、流动性模式、订单提交、市场单和撤单等微观结构属性的重要性;特征工程重点是保留订单簿空间结构并把预测结果放入可执行交易框架检验。
研究启发
对我们的 OB/SF/sidecar/MLP/LGB/Linear/LLM 因子管线的启发是:离线 IC、F1 或准确率应补充交易可执行性、成交概率、完整交易方向预测和成本约束等 operational metrics,用于解释模型指标提升为何不一定转化为收益。
管线落点
优先判断是否能成为 OB 1s exact-axis sidecar;候选 routes: llm_factor_pipeline。
可能增益
可帮助解释为什么模型离线指标提升不一定转化为收益,并为 MLP/Linear/LGB 对照建立更合理的验证口径。
IDEA-2026-W26-5a2dfd8b优先级 中分数 9

LSTM、GRU 与 Transformer 在股票价格趋势预测中的比较分析

原题:Comparative Analysis of LSTM, GRU, and Transformer Models for Stock Price Trend Prediction
Curated Model and Financial Time-Series Research · 2024-11-08 · candidate 打开来源
模型训练 / 序列预测
MLP 时序预测
  • 在同一 Tesla 股票数据上比较 LSTM、GRU 和 Transformer
  • 给出 2015 至 2024 年共 2274 个交易日的数据描述和 EDA
  • 报告 LSTM 在该实验中达到 94% 准确率
  • 展示了 ADF 检验和差分等基础时间序列处理流程

这篇文章围绕股票价格趋势预测,对 LSTM、GRU 和 Transformer 三类序列模型进行比较。论文从金融市场预测的难点出发,指出股票价格受经济指标、地缘政治事件、市场情绪和投资者行为等多因素影响,具有不确定性、非线性和高维特征,传统决策树、SVM 等方法难以充分捕捉复杂动态关系。随着深度学习发展,RNN、LSTM、GRU、CNN、GNN、Transformer 和强化学习都被用于股票预测,其中 LSTM 和 GRU 适合处理序列依赖,Transformer 则因注意力机制在序列和文本情绪分析中受到关注。实证部分使用 Tesla 股票数据构建训练数据集,时间范围为 2015 年 1 月 1 日至 2024 年 1 月 16 日,共 2274 个交易日且无缺失值。论文进行了探索性数据分析,包括月度开盘价和收盘价对比、价格走势与成交量可视化,并报告不同月份的价格差异,例如 2 月价格相对较高、9 月和 10 月相对较低。平稳性检验方面,月度 high price 的 ADF 检验 p 值为 0.703,显示非平稳;差分后 p 值为 0.142,平稳性有所改善但材料未显示达到常见显著性阈值。方法部分介绍了 LSTM 的遗忘门、输入门、单元状态更新和输出门公式,也说明 GRU 通过更新门和重置门以较简单结构捕捉长期依赖,并概述了数据准备、归一化、网络结构设计、激活函数、损失函数和优化器选择等建模流程。论文摘要给出的主要结论是,在该 Tesla 股票趋势预测任务中,LSTM 模型准确率达到 94%,并被认为更符合股票趋势预测需求。文章的边界也较明显:输入材料未展示完整训练/测试切分、Transformer 和 GRU 的具体指标、交易可用性检验或收益风险评估,因此结论更适合作为模型比较案例,而不是充分的投资有效性证明。

定位
模型训练 / 融合候选
背景
股票趋势预测受到市场信息、投资者行为、宏观事件和公司因素共同影响,传统模型难以处理金融数据的高维、非线性和动态依赖,因此深度序列模型成为常见研究方向。
逻辑
文章通过同一 Tesla 股票数据集比较 LSTM、GRU 和 Transformer,试图判断哪类序列模型更适合从历史价格数据中捕捉趋势信息,并用准确率等指标评价预测效果。
方法
方法包括 Tesla 历史股票数据的 EDA、月度价格比较、成交量与价格走势分析、ADF 平稳性检验、差分处理,以及 LSTM、GRU、Transformer 模型训练。文中详细列出 LSTM 门控公式,并概述 GRU 的数据准备、归一化、结构设计和训练流程。
数据
数据为 Tesla 股票数据,覆盖 2015 年 1 月 1 日至 2024 年 1 月 16 日,共 2274 个交易日,无缺失值。材料展示了开盘价、收盘价、最高价、最低价和成交量等字段。
结果
摘要称 LSTM 模型在实验中达到 94% 准确率。材料未提供 GRU 和 Transformer 的完整指标表,也未给出收益、回撤或交易成本下的验证结果。
特征工程
文章主要使用日频股票 OHLCV 与基础时间序列处理,未涉及订单不平衡、主动买卖、微价格、队列状态或事件时间等高频特征工程。
研究启发
可把 GRU 作为 OB/SF/MLP 路线之外的轻量路径记忆 baseline,在相同切分、相同标签和相同交易评估下比较 MLP、GRU、TCN 与 small Transformer,重点观察短窗口状态延续是否带来稳定增益。
管线落点
优先作为 MLP/LGB/Linear 的训练或融合实验,不直接改变因子数据;候选 routes: mlp_codeX。
可能增益
可用于 mlp_codeX 的低成本模型扩展:MLP vs GRU vs TCN vs small Transformer,在相同数据切分和交易评估下比较。
IDEA-2026-W26-9a5092a6优先级 中分数 9

LENS:用于挖掘金融时序规律的大规模预训练 Transformer

原题:LENS: Large Pre-trained Transformer for Exploring Financial Time Series
Curated Model and Financial Time-Series Research · 2024-08-19 · candidate 打开来源
模型训练 / 序列预测
MLP 时序预测
  • 针对金融时序低信噪比和高随机性专门设计预训练基础模型
  • 使用超过 1000 亿条金融观测进行大规模预训练
  • 引入可逆嵌入模块缓解预训练中的噪声影响
  • 结合 patch 级对比学习、重构和多变量 attention 建模金融序列依赖

这篇文章提出 LENS,一个专门面向金融时间序列的预训练基础模型。传统统计方法和常规深度学习模型往往能取得一定样本内效果,但泛化能力受限;通用时间序列大模型也很难从其他领域数据中直接获得对金融序列有用的经验。因此作者提出需要为金融数据特性专门设计架构和预训练框架。LENS 的核心是大规模 Transformer 预训练模型,使用超过 1000 亿条金融观测进行训练,并通过多样化金融数据提升跨下游任务泛化。方法上,论文强调两个结构设计:一是 invertible embedding module,用于在 patch 层初始化时间序列 token 表示,并在预训练中缓解噪声影响;二是面向多变量时间序列的专门 attention 机制,用来捕捉变量之间的依赖。预训练流程包含对输入时间序列切分 patch,并围绕对比学习和重构构造样本;摘录中提到对每个 patch 加入小幅高斯噪声形成正样本,并通过时间轴翻转生成负样本,同时给出了高斯白噪声下干净样本表示距离上界的理论解释。实验方面,论文称 LENS 在广泛关键下游任务上取得优异表现,并给出一个预测设置示例:基于前 96 个时间步预测后 196 个时间步。文章贡献不只是报告一个模型,还试图说明在高噪声环境中构建预训练时间序列模型时,表示初始化、降噪式预训练和多变量依赖建模需要协同设计。材料未给出所有下游任务名称、完整指标表和基线数值,因此具体性能强弱只能按摘要与摘录中的概括性结论理解。

定位
模型训练 / 融合候选
背景
金融时间序列受经济环境、政治事件、市场参与者行为等多因素驱动,随机性强且信噪比低。既有统计模型、深度模型和通用时间序列预训练模型在金融领域面临泛化和噪声鲁棒性挑战。
逻辑
论文的核心逻辑是:金融时序基础模型不能简单复用其他领域预训练经验,必须通过金融专属大规模数据、可逆嵌入、降噪式对比/重构预训练和多变量 attention 来学习高噪声系统中的稳定规律。
方法
LENS 使用 Transformer 架构,包含 invertible embedding module 和多变量时间序列专用 attention。预训练中将时间序列切分为 patch,构造高斯噪声正样本和时间翻转负样本,并结合对比学习、重构目标与理论分析解释噪声条件下的表示学习效果。
数据
论文称模型在超过 1000 亿条金融观测上预训练,并使用多样化金融数据验证多个下游任务;摘录中还出现了前 96 步预测后 196 步的时间序列预测设置。
结果
论文摘要称 LENS 在广泛关键下游任务上取得优异结果,并展示了高噪声金融环境下预训练模型的有效性;输入材料没有提供完整任务清单和具体指标表。
特征工程
与高频特征工程相关的部分主要在时间序列 patch 化、噪声增强、对比样本构造和多变量依赖建模。它强调先学习稳定表示,再处理低信噪比金融观测,对盘口状态、成交流、跨变量状态压缩等高频数据表示设计有参考意义。
研究启发
可参考其自监督预训练思路,在 OB/SF/sidecar 数据上构造 mask reconstruction、next-state prediction、contrastive state matching 等任务,让 MLP、GRU 或 Transformer 在监督标签前先学习盘口状态空间、跨股票共性表示和噪声鲁棒 token 表示。
管线落点
优先作为 MLP/LGB/Linear 的训练或融合实验,不直接改变因子数据;候选 routes: mlp_codeX。
可能增益
潜在增益在于让 MLP/GRU/Transformer 不只依赖监督 label,而先学习盘口状态空间和跨股票共性表示。

订单簿表示与逐笔数据

1 条 · 平均分 27.0
IDEA-2026-W26-ed1d1cfb优先级 高分数 27

基于注意力机制的限价订单簿读取、突出与全簿预测

原题:Attention-Based Reading, Highlighting, and Forecasting of the Limit Order Book
Curated Model and Financial Time-Series Research · 2024-09-03 · candidate 打开来源
模型训练 / 序列预测数据坐标 / 高频状态
MLP 时序预测LLM 因子生成
  • 从中间价预测扩展到多层订单簿价格与数量的全簿预测
  • 提出 compound multivariate embedding 捕捉订单类型、特征和层级的复合依赖
  • 强调高频 LOB 的非平稳性、时间尺度效应和 bid-ask spread 非恒定性
  • 实证结论称方法降低预测误差并保持订单簿层级结构

本文研究的问题不是常见的中间价方向分类,而是对多层限价订单簿进行序列到序列预测,目标覆盖买卖两侧不同价位层级上的价格与数量。文章指出,LOB 是由订单提交、成交和撤单持续更新形成的高频市场状态,具有毫秒级变化、强噪声、非平稳性和复合多变量结构。传统只预测 mid-price 的方法虽然能反映总体价格趋势,但无法区分相同中间价下不同的深度分布、买卖价差和多层流动性形态,因此在理解市场深度、执行成本和风险管理时信息不足。论文将 LOB 视为同时包含时间、订单方向、价格/数量特征和层级顺序的复合时空序列,提出在注意力式 seq2seq 框架中加入 compound multivariate embedding,用于刻画订单类型、特征和层级之间的相互依赖,并尽量保持多层价格的 ordinal structure。为缓解高频金融数据的非平稳性,作者还使用百分比变化与 min-max transformation,使模型在不显著增加复杂度的情况下更好处理训练期与测试期分布变化。文中用 AMZN、GOOG、AAPL 等股票的高频 LOB 现象展示不同时间尺度下价格波动会被平滑、买卖价差并非常数,并强调短时间分辨率对于捕捉 LOB 动态的重要性。实验部分将所提方法与其他多变量预测方法比较,结论称该方法取得最低预测误差,同时能维护订单簿层级结构。文章的主要贡献在于把注意力模型从中间价预测扩展到整本多层订单簿预测,并通过复合嵌入显式处理高频 LOB 的空间层级和时间依赖。其边界在于摘要和摘录没有给出完整数据来源、样本区间、评估指标数值和所有 baseline 的详细表格。

定位
数据坐标 / sidecar 候选
背景
高频限价订单簿包含买卖报价、数量、层级和时间戳,能够反映实时供需和市场深度。既有研究多聚焦未来中间价方向,但相同中间价下的深度、价差和多层报价结构可能完全不同,仅预测中间价不足以刻画完整市场状态。
逻辑
文章的核心逻辑是:LOB 预测应从单一价格指标转向全簿状态预测;多层 LOB 的价格、数量、买卖方向和层级顺序存在复合依赖;注意力式 seq2seq 模型配合复合多变量嵌入,可以同时读取、突出并预测这些时空结构。
方法
方法使用高级多维 sequence-to-sequence 模型预测多层 LOB 的价格和数量,并提出 compound multivariate embedding 来编码订单类型、特征和层级之间的关系。文章还使用百分比变化和 min-max transformation 处理高频金融序列的非平稳性。
数据
摘录中展示了 AMZN 股票 best-bid 与 best-ask 在 1 秒、1 分钟、1 小时和 2 小时窗口下的滚动平均,并展示 GOOG、AAPL、AMZN 在某交易日的 bid-ask spread 变化,用于说明高频 LOB 的时间尺度效应和价差非恒定特征。完整样本区间和交易所来源在输入摘录中未给出。
结果
论文称实证结果显示所提 compound multivariate embedding 方法优于其他多变量预测方法,取得最低预测误差,并能保持 LOB 的层级顺序结构。输入摘录未给出具体误差数值和完整 baseline 表。
特征工程
文章强调多层价格、买卖方向、数量深度、bid-ask spread、时间尺度、层级顺序和全簿形态都是 LOB 预测中的关键状态变量,提示高频特征工程不应只围绕 mid-price,还应保留盘口深度、价差变化和多层结构。
研究启发
可启发 OB/SF/MLP/LLM 因子管线把预测目标从短 horizon return 或 mid-price 方向扩展为 next-state / book-shape reconstruction,并将订单簿重构误差、层级结构保持度或未来盘口形态作为辅助任务或自监督约束,再辅助 LGB/Linear/MLP 的短周期信号学习。
管线落点
优先判断是否能成为 OB 1s exact-axis sidecar;候选 routes: mlp_codeX, llm_factor_pipeline。
可能增益
可能提升模型对盘口状态演化的理解,辅助短 horizon return label 的弱信号学习。

评估审计与风险控制

2 条 · 平均分 16.0
IDEA-2026-W26-fb8e1c23优先级 高分数 23

双分支自监督学习识别市场操纵:融合频域异常合成与领域特征

原题:Detecting market manipulation with dual-branch self-supervised learning: A unified framework integrating frequency-informed anomaly synthesis and domain-specific features
OpenAlex Semantic Works Search · 2026-06-08 · candidate 打开来源
评估审计 / 可比性模型训练 / 序列预测数据坐标 / 高频状态
回测与可比性审计Linear/Ridge baselineLLM 因子生成
  • 针对信号隐藏、样本稀缺和边界模糊三类操纵检测难题设计统一框架
  • 用微观结构领域特征放大细微操纵信号
  • 通过离散小波变换和 few-shot learning 生成合成异常支持自监督训练
  • 在股票操纵和加密货币拉盘数据上报告了准确率、误报率和检测延迟改善

本文提出 SD-FMM,一个面向金融市场操纵检测的自监督框架,目标是解决操纵识别中的三类核心困难:操纵信号通常被正常交易噪声掩盖,真实标注案例稀缺,正常交易与操纵行为之间的边界模糊。文章将框架分为三个主要组件。第一是 Amplification Component,基于市场微观结构理论提取并融合领域特征,用于放大细微但具有操纵含义的交易信号。第二是 Synthesis Component,利用 few-shot learning 和基于离散小波变换的动态频率分析生成更真实的合成异常,使模型可以在缺少大量标注操纵样本的情况下进行自监督训练。第三是 Detection Component,即 Dual-branch Contrastive Detection Neural Network,通过局部对比学习增强模型对操纵边界的敏感度,同时通过整体建模捕捉时间依赖。实验使用两个市场数据集:一个是新收集的 25 个中国股票市场操纵案例的专有数据集,另一个是包含 338 个加密货币 pump-and-dump schemes 的公开 benchmark。论文与 12 个先进 baseline 比较,报告称在股票数据集上,SD-FMM 的 average precision 相比次优方法提升 47.61%,false alarm rate 降低 47.46%,mean detection delay 缩短 25.05%;在加密货币数据集上,Hit Rate@3 达到 83.13%,Hit Rate@20 达到 97.93%。文章的主要亮点是把微观结构特征、频域异常合成和双分支对比检测整合成统一框架,既关注检测准确率,也关注误报和发现延迟。需要注意的是,source_reading_text 只有跳转提示,具体细节主要来自摘要材料,因此无法进一步核验特征定义、网络结构和实验协议。

定位
评估审计 / 可比性候选
背景
市场操纵行为往往隐藏在正常交易波动中,真实标注样本少,操纵与非操纵交易之间边界不清晰,导致传统监督检测方法面临信号弱、样本稀缺和误报较高的问题。
逻辑
文章认为操纵检测需要同时增强弱操纵信号、缓解标注数据不足,并提高模型对模糊边界的识别能力,因此将领域特征放大、频域异常合成和双分支对比检测组合为统一自监督框架。
方法
SD-FMM 包含三部分:基于市场微观结构理论的领域特征提取与融合;使用 few-shot learning 和离散小波变换动态频率分析生成合成异常;使用 Dual-branch Contrastive Detection Neural Network,通过局部对比学习和时间依赖建模完成检测。
数据
实验使用一个新收集的 25 个中国股票市场操纵案例专有数据集,以及一个包含 338 个加密货币 pump-and-dump schemes 的公开 benchmark。
结果
在股票数据集上,相比次优 baseline,SD-FMM 的 average precision 提升 47.61%,false alarm rate 降低 47.46%,mean detection delay 缩短 25.05%。在加密货币数据集上,Hit Rate@3 为 83.13%,Hit Rate@20 为 97.93%。
特征工程
文章强调市场微观结构领域特征对放大操纵信号的重要性,并引入基于离散小波变换的频域动态分析来合成异常,相关特征可能涉及成交、盘口、价格冲击、交易节奏和频率成分变化。
研究启发
可用于 OB/SF/sidecar/LLM 因子管线中的风险审计与异常过滤:将微观结构特征、频域异常检测、自监督异常合成作为候选因子的稳定性检查或交易状态过滤器;也可为 LGB/Linear/MLP 增加异常状态标签、操纵风险 proxy 或低置信区间剔除规则。
管线落点
优先进入审计/评估方法库,服务 baseline 可比性和 SFT/BT 可信度;候选 routes: backtest_audit, linear_codeX, llm_factor_pipeline。
可能增益
潜在增益是减少操纵/异常事件对训练和回测结论的污染,提升 tail 风险控制。
IDEA-2026-W26-cd66d4c6优先级 中分数 9

金融科技系统中的自适应风险评估:基于强化学习的连续策略优化

原题:Adaptive Risk Evaluation in FinTech Systems via Reinforcement-Based Continuous Policy Optimization
OpenAlex Semantic Works Search · 2026-06-11 · candidate 打开来源
因子生成 / 表示学习模型训练 / 序列预测
LGB 融合与筛选MLP 时序预测
  • 把实时风险评分建模为连续动作 MDP
  • 强调在线学习与推理服务分离的可部署架构
  • 使用 850 万条模拟信用记录评估信用违约和资产配置任务
  • 报告了分类准确率、趋势适应率和长时域 reward 指标

这篇文章研究金融科技系统中的实时自适应风险评分问题,重点关注高容量、低延迟、概念漂移和不中断服务更新等生产系统约束。作者认为,金融风险评估不只是一次性分类任务,而是在市场环境、用户行为和交易分布持续变化下的序贯决策问题;传统 Random Forest、Gradient Boosting 和 Transformer 等基线通常依赖周期性批训练或静态模型更新,难以在服务不中断的前提下持续适应分布变化。论文提出 ARL-CPO,即基于强化学习的连续策略优化方法,把风险评估建模为连续动作 Markov Decision Process,并利用流式交易数据、行为事件和结果驱动 reward feedback 持续优化策略。文章不仅讨论学习算法,也将 ARL-CPO 描述为可部署的软件架构:在线学习与推理服务分离,推理侧可以作为微服务对外提供低延迟风险评分,学习侧通过异步更新循环持续更新模型,从而避免依赖周期性批量重训。实验评估包括信用违约预测和自适应资产配置两个任务,数据来自自定义 FinTech 环境模拟器生成的 850 万条信用记录。论文使用 precision、F1 score 等分类指标,并引入 trend adaptation rate 衡量对分布漂移的响应能力,以及 cumulative long-term performance index 衡量归一化长时域 reward。结果称 ARL-CPO 相比 Random Forest、Gradient Boosting 和 Transformer 基线表现更好,达到 97.4% 分类准确率、98.8% 趋势适应率和 96.1% 累积长期表现指数。文章结论是,强化学习式连续策略更新可以作为实时金融风险系统中可行的自适应组件,用于应对不断变化的市场和用户条件。需要注意的是,网页材料显示数据由自定义模拟环境生成,数据可按请求获得,输入中没有完整方法细节、特征定义和独立真实生产数据验证,因此外推到真实业务场景仍需谨慎。

定位
模型训练 / 融合候选
背景
金融科技风险系统需要在高吞吐、低延迟场景中实时评估风险,并适应市场和用户行为分布漂移。传统批训练模型在不中断服务的连续更新方面存在局限。
逻辑
文章将风险评分从静态监督学习转化为连续动作 MDP,通过结果反馈优化策略,并用在线学习与推理服务解耦的架构解决生产系统中的持续更新和低延迟服务问题。
方法
提出 ARL-CPO,将风险评估建模为连续动作 Markov Decision Process,利用流式交易、行为事件和 outcome-driven reward feedback 进行连续策略优化。系统架构上采用推理微服务加异步在线更新循环,并与 Random Forest、Gradient Boosting、Transformer 对比。
数据
实验数据为自定义 FinTech 环境模拟器生成的 850 万条信用记录,任务包括信用违约预测和自适应资产配置。网页声明数据可按请求获得。
结果
论文报告 ARL-CPO 达到 97.4% 分类准确率、98.8% 趋势适应率和 96.1% 累积长期表现指数,并在 precision、F1 score 等指标上优于 Random Forest、Gradient Boosting 和 Transformer 基线。
特征工程
文章材料主要讨论流式交易、行为事件和结果反馈,没有给出订单簿层级、主动买卖、微价格、队列状态等高频市场微观结构特征细节。
研究启发
可借鉴其在线学习与推理解耦思想,用于 OB/SF/sidecar/MLP/LGB/Linear 因子管线中的漂移监控、风险 gate 或异步模型刷新设计;但该论文数据来自模拟器,不能直接等同于真实高频交易收益验证。
管线落点
优先作为 MLP/LGB/Linear 的训练或融合实验,不直接改变因子数据;候选 routes: lgb_codeX, mlp_codeX。
可能增益
潜在收益不是直接提高 raw IC,而是减少状态不适配时期的尾部损失和 SFT/BT 不稳定。

高频数据特征工程

5 条 · 平均分 29.4
IDEA-2026-W26-bc3ab97e优先级 高分数 34

中信建投:市场微观结构系列研究,从分钟频到 Level2 的探索与发现

原题:CSC market microstructure research from minute frequency to Level2
Curated Chinese Broker Microstructure Research · 2025-12-17 · candidate 打开来源
因子生成 / 表示学习高频特征工程数据坐标 / 高频状态
LLM 因子生成高频数据特征工程
  • 把分钟频因子开发归纳为分布、时序和多指标联动三条路径
  • 用时间重心算子刻画成交量和价格变动在日内的集中位置
  • 明确指出部分高收益高频因子可能主要来自流动性等风格暴露
  • Level2 部分从撤单、彩票委托和废单角度解释投资者交易意图

文章汇集中信建投过去四年高频因子开发经验,围绕分钟频因子挖掘与 Level2 数据应用两条主线展开。文章首先讨论高频数据研究中的“取”与“舍”:高频数据能提供毫秒级交易细节、瞬时异动和更丰富的微观结构线索,但也带来存储算力压力、噪声放大、过拟合和市场结构漂移问题。分钟频部分提出三类因子开发路径:一是挖掘变量分布规律,例如以单笔成交金额分位数比值构造 QUA 因子,用分位数和标准化处理降低极端值、股价和流动性差异影响;该因子全样本 IC 为 -0.054、Rank IC 为 -0.078,多空收益较高,但收益来源与流动性风格高度相关,属于 Half-Alpha。二是捕捉日内时序特征,文章将日内划分为隔夜及 8 个半小时时段,发现隔夜和开盘后首半小时更偏动量,尾盘更偏反转,并据此改进收益率偏度因子 CSKEW,IC 为 -0.053,多空年化收益超过 30.4%,信息比率 3.3;同时提出时间重心算子,刻画成交量或收益在日内的分布集中度,构造短线交易拥挤度 STC 和时间重心偏离 TGD,其中 STC 在中证1000优选组合中超额夏普 2.19、最大回撤 6.23%,TGD 表现相对一般但 2022 年前后衰减不明显。三是研究多指标关联,通过分钟序列 Pearson 相关、聚类和样本切割,分析成交量、大单买入笔数、主动买卖金额、涨跌幅和振幅等指标的联动信息,并构造主力交易强度 MTS、强反转 SR 等因子。Level2 部分进一步讨论逐笔成交、逐笔委托和 Tick 行情如何揭示订单生命周期、投资者意图和交易算法变化,重点分析撤单、彩票委托、废单、机构与散户行为差异等微观现象。文章强调,高频 Alpha 的有效性依赖市场微观结构稳定性,简单统计规律会受到交易习惯、算法执行和流动性结构变化影响,因此因子研究必须结合机制解释、风格暴露和样本外稳定性共同判断。

定位
高频数据特征工程候选
背景
高频数据可观察分钟、逐笔和盘口层面的交易细节,但市场微观结构变化、算法交易普及和因子同质化会削弱简单历史规律的稳定性。
逻辑
文章认为高频 Alpha 不应只依赖批量表达式挖掘,而要从分布规律、日内时序差异、多指标联动和 Level2 订单意图四个层面理解信号来源。
方法
方法包括分位数与比值标准化、行业市值中性化、20日滚动窗口、十分组测试、分时段 IC 分析、中心矩统计、时间重心算子、指标对相关系数、K-means 聚类、订单撤回和废单切片分析。
数据
使用分钟行情、成交量、成交额、分钟收益、资金流向指标,以及 Level2 逐笔成交、逐笔委托和 Tick 行情;测试区间多处覆盖 2013-2025 或 2018-2025,部分组合在中证1000成分股内评估。
结果
QUA 因子 IC -0.054、Rank IC -0.078,但流动性暴露较强;CSKEW 因子 IC -0.053,多空年化收益超过 30.4%,信息比率 3.3;STC 中证1000优选组合超额夏普 2.19、最大回撤 6.23%;MTS 全样本 IC 约 0.06,多空年化收益超 32%,信息比率 2.6;LOTTERY 和 PTO 因子也展示了较高多空收益。
特征工程
重点特征包括单笔成交金额分位数、日内收益偏度、早盘/尾盘成交占比、成交量时间重心、价格时间重心、大单买入笔数、主动买卖金额同步性、指标对相关、撤单类型、彩票委托、废单和收盘参与度。
研究启发
与我们的 OB/SF/sidecar/MLP/LGB/Linear/LLM 因子管线相关的启发是:可将 Level2 指标对、主动买卖同步性、大单交易行为、日内时间重心、撤单和废单状态整理为可审计 sidecar taxonomy,并作为 LLM 因子生成的中文机制模板。
管线落点
优先进入高频 feature pool / sidecar taxonomy,同时服务 LGB/Linear/MLP 和 LLM factor prompt;候选 routes: llm_factor_pipeline, hft_feature_engineering。
可能增益
可能为 LLM 因子生成提供中文机制模板,也能帮助 MLP/LGB 侧构造更可解释的 order-flow interaction 特征。
IDEA-2026-W26-3f512fff优先级 高分数 29

国信证券:高频订单成交数据蕴含的 Alpha 信息

原题:Guosen Securities alpha information in high-frequency order transaction data
Curated Chinese Broker Microstructure Research · 2024-01-08 · candidate 打开来源
因子生成 / 表示学习高频特征工程数据坐标 / 高频状态
高频数据特征工程LLM 因子生成数据 sidecar / 高频衍生数据
  • 从逐笔成交而非日频 K 线中提取订单行为信息
  • 发现传统大单交易占比需要拆解子因子方向,否则信号会互相抵消
  • 将订单成交时长作为 Alpha 维度,提出漫长订单交易占比
  • 提出按订单特征分类成交记录的统一成交量占比框架

报告围绕逐笔成交数据中的 Alpha 信息展开,出发点是传统日频量价数据只能记录开高低收和成交量,无法区分同一日 K 线背后完全不同的日内资金博弈路径。报告认为,随着低频量价因子边际信息下降,逐笔成交数据提供了更细粒度的订单数量、价格、时间、买卖双方订单号和订单属性,能够从订单大小、成交时长、成交时间、出价高低等维度刻画交易行为。报告首先介绍基于订单大小的大单交易占比因子。传统方法用分位点识别大单并构造交易占比,虽有一定选股能力但绩效平庸且稳定性较差;进一步拆解后发现不同子因子方向不一致,导致整体效果被抵消。作者调整子因子方向后构造改进大单交易占比因子,RankIC 均值达到 7.6%,年化 RankICIR 为 3.73,月胜率 88.1%,月度自相关系数 0.81。其次,报告提出基于订单成交时长的漫长订单交易占比因子,用分位点识别成交耗时较长的订单,并以其交易占比刻画流动性吸收、订单执行难度或交易耐心等信息,该因子 RankIC 均值为 7.1%,年化 RankICIR 为 3.88,月胜率 84.5%,月度自相关系数 0.82。报告还从早尾盘属性和高低价属性扩展订单特征维度,并将改进大单交易占比与漫长订单交易占比等权合成为“大单及漫长订单”复合因子,RankIC 均值达到 8.4%,年化 RankICIR 为 4.39,月胜率 88.1%;周频调仓下周度 RankIC 均值为 5.1%,年化 RankICIR 为 5.42,周胜率 78.4%。最后,报告提出基于订单特征的成交量占比统一框架,按委买单和委卖单的大单属性、漫长属性对成交记录分类,检验不同成交类型的选股能力,并构造精选复合因子,月频 RankIC 均值 8.5%、年化 RankICIR 5.06、月胜率 90.5%。报告指出复合因子偏向低估值、大市值、低波动、低换手股票,但在剥离传统选股因子后仍具稳健选股能力。

定位
高频数据特征工程候选
背景
日频行情会压缩日内路径信息,完全相同的日 K 线可能对应不同资金博弈过程;逐笔成交数据记录每笔成交的数量、价格、时间以及买卖双方订单信息,能更细地观察交易行为。
逻辑
报告认为订单本身的大小、成交耗时、发生时段和价格位置包含投资者行为差异;通过按订单属性切分成交记录并统计交易占比,可以从高频订单流中提取选股信息。
方法
方法包括用分位点定义大单和漫长订单,拆解委买单与委卖单子因子,调整方向后合成因子;进一步按早尾盘属性、高低价属性、大单属性和漫长属性分类成交记录,并构造等权复合因子和精选复合因子。
数据
使用逐笔成交数据,字段包括每笔成交数量、价格、时间、买卖双方订单数量、价格和订单号;报告还结合订单大小、成交时长、成交时间、出价高低等维度展开测试。
结果
改进大单交易占比因子 RankIC 均值 7.6%,年化 RankICIR 3.73,月胜率 88.1%;漫长订单交易占比因子 RankIC 均值 7.1%,年化 RankICIR 3.88,月胜率 84.5%;大单及漫长订单复合因子 RankIC 均值 8.4%,年化 RankICIR 4.39;精选复合因子 RankIC 均值 8.5%,年化 RankICIR 5.06,月胜率 90.5%。
特征工程
重点特征包括大单交易占比、委买/委卖大单子因子、订单成交时长、漫长订单交易占比、早尾盘属性、高低价属性,以及按大单属性和漫长属性组合后的成交量占比。
研究启发
对我们的 OB/SF/sidecar/MLP/LGB/Linear/LLM 因子管线的启发是:订单大小、成交耗时、早尾盘属性和高低价属性可整理为可审计 sidecar 字段,也可成为 LLM 因子模板,用于补充普通成交量 rolling 无法表达的拆单、被动吸收、流动性消耗和延迟成交状态。
管线落点
优先进入高频 feature pool / sidecar taxonomy,同时服务 LGB/Linear/MLP 和 LLM factor prompt;候选 routes: hft_feature_engineering, llm_factor_pipeline, data_processing_sidecar。
可能增益
可能提供比普通成交量 rolling 更细的行为分解,帮助识别拆单、被动吸收、流动性消耗和延迟成交状态。
IDEA-2026-W26-759776b6优先级 高分数 29

开源证券订单流系列:挂单方向长期记忆性的讨论与应用

原题:KYSEC order flow long memory of order submission direction
Curated Chinese Broker Microstructure Research · 2024-06-09 · candidate 打开来源
数据坐标 / 高频状态高频特征工程
数据 sidecar / 高频衍生数据高频数据特征工程LLM 因子生成
  • 用逐笔委托方向编码直接刻画订单流长期记忆
  • 指出小额、价优、靠近盘口订单的时序相似度更高
  • 将自相关回归、频谱分析和订单连续重复统计用于Alpha因子构造
  • 比较树模型和LSTM在高频特征合成中的表现与泛化边界

报告从市场微观结构的时间序列视角研究逐笔委托中“挂单方向”是否存在长期记忆性,并进一步讨论其形成机制与因子应用。文章将每笔买入委托编码为1、卖出委托编码为-1,形成连续的订单方向序列,再用自相关系数、ACF/PACF以及自相关随滞后阶数衰减的形态刻画长期记忆。基于深市逐笔委托数据,报告发现A股订单流中买卖方向在较长滞后下仍显著相关,后续订单方向与当前方向大概率保持一致;这种特征并非只由少数特殊股票贡献,而是在大小票中普遍存在。宏观分组上,长期记忆性在2022年以前并不显著,且高低价格股票的强度重心前后有变化;微观分组上,连续竞价阶段强度自2022年以来明显提高,且越靠近盘口、委托数量越小的订单,时序相似度越高。报告进一步认为,长期记忆并非价格趋势导致,而更像是委托连续性的表象。对于成因,文章比较羊群效应和算法拆单两类解释,并从机构持仓、股东户数、资金流因子变化和订单微观形态等角度推断,该现象更可能与一种或多种交易算法作用有关,而非单纯散户时间拥挤。应用部分,报告构造了长期记忆强度LMS、高维记忆MEMO、基于傅里叶频谱的分拆痕迹OST,以及同类订单连续重复次数等因子。LMS十分组不单调且ICIR偏低,偏度、峰度和高维记忆类指标表现更好,MEMO收益稳定性较高;OST在2022年以来增强但2024年初有回撤。机器学习部分比较XGBoost、LightGBM和LSTM,指出XGBoost样本内较理想但样本外衰减明显,LightGBM分组单调性和样本外衰减相对更好,LSTM加入负IC绝对值惩罚后预测效果改善。文章边界在于结果基于历史数据,未来市场结构变化可能影响有效性。

定位
高频数据特征工程候选
背景
报告延续市场微观结构研究,关注逐笔委托方向序列中的时间依赖。其背景是订单数据能够比日频或分钟行情更直接反映投资者行为、算法拆单和交易连续性。
逻辑
核心逻辑是:如果连续委托方向序列在较长滞后下仍保持显著自相关,且该相关性随滞后缓慢衰减,则说明订单流方向存在长期记忆;这种记忆可进一步作为交易行为连续性、算法拆单痕迹和信息优势交易者参与度的观测信号。
方法
方法包括将买入委托编码为1、卖出委托编码为-1,计算不同滞后阶的自相关系数、ACF/PACF,并对1至100阶自相关与滞后阶对数做回归以提取截距和斜率;同时引入傅里叶变换等频域分析、同类订单连续重复次数统计,并用树模型和LSTM进行特征合成。
数据
报告使用A股逐笔委托数据,文本中明确提到深市逐笔委托数据,并以2024年3月15日的样本图示展示ACF/PACF、自相关衰减以及京东方A、五粮液等个股差异。
结果
A股挂单方向长期记忆性普遍存在,2022年以来连续竞价阶段强度明显提高;小额、价优、靠近盘口的委托长期记忆性更强。MEMO测试结果较优且稳定性较高,OST在2022年以来增强但2024年初有较大回撤;XGBoost样本外泛化较弱,LightGBM相对稳健,加入IC惩罚的LSTM效果提升。
特征工程
特征工程重点在于把逐笔委托方向从单点标签扩展为序列记忆特征:方向编码、自相关滞后曲线、衰减斜率、截距、频谱强波占比、连续同类订单重复次数,以及按盘口距离、委托金额大小和交易阶段分域计算。
研究启发
可结合我们的OB/SF/sidecar/MLP/LGB/Linear/LLM因子管线,把挂单方向长期记忆、价格层距离、委托金额大小和衰减参数做成可开关的高频sidecar特征,尤其适合PriceLevelMemory和PathMemory类候选因子生成。
管线落点
优先进入高频 feature pool / sidecar taxonomy,同时服务 LGB/Linear/MLP 和 LLM factor prompt;候选 routes: data_processing_sidecar, hft_feature_engineering, llm_factor_pipeline。
可能增益
可能为当前 PLM、jump decay、path memory 提供中文实证机制,帮助 LLM 生成更贴近订单行为而非普通 rolling 的候选因子。
IDEA-2026-W26-39e21387优先级 高分数 28

开源证券:市场微观结构观察与2023年以来的高频因子回顾

原题:KYSEC market microstructure observation and high-frequency factor review since 2023
Curated Chinese Broker Microstructure Research · 2025-08-06 · candidate 打开来源
因子生成 / 表示学习数据坐标 / 高频状态
LLM 因子生成
  • 以四类微观指标观察放量行情中的交易结构变化
  • 把订单簿厚度和冲击成本纳入筹码充足率分析
  • 回顾MEMO、SR、LOTTERY因子在2023年以来的表现
  • 强调高频因子有效性会随市场结构变化而减弱

报告围绕2024年9月24日以来A股放量上涨背景,观察资金驱动行情中的市场微观结构变化,并回顾2023年以来多个高频因子的表现。文章认为本轮行情主要受被动投资、杠杆资金和量价齐升驱动:ETF持仓占比上升为指数上涨提供流动性,融资融券余额快速扩张,截至2025年8月4日超过1.99万亿元,赚钱效应放大后散户参与意愿增加,也可能改变原有量价规律。微观结构观察部分提出四个视角。第一是早盘交易集中度,即9:30至10:00成交量占全天成交量比例,用来衡量投资者交易急迫性和拥挤程度;截至2025年8月4日约为25%,维持在2024年“新国九条”颁布以前水平。第二是单笔委托金额,通过统计平均单笔订单金额来间接刻画机构、游资和散户参与比例变化,报告指出各市场平均单笔金额明显提高。第三是筹码充足率,即从订单簿厚度观察可交易筹码是否充足;2024年9月以来订单簿逐渐增厚,冲击成本降低,微盘股流动性供给相对充足。第四是程序化交易比例,文章以高频撤单比例观察程序化交易活跃度,指出监管后高频交易更克制,但放量阶段活跃度提高又给高频策略更多空间。因子回顾部分跟踪既往发布的高频因子,使用20日滚动均值并测试全市场分组效果。报告列出高维记忆MEMO、强反转SR和彩票委托LOTTERY三个因子,指出2023年以来均有不同程度减弱,但仍有可观多空收益:MEMO为29.3%,SR为19.7%,LOTTERY为32.9%。文章还展示累计IC、十分组单调性等图表,并提示模型基于历史数据测试,未来市场可能变化。整体看,报告的重点不是提出单一新模型,而是把行情资金结构、订单簿流动性、交易拥挤、程序化交易和高频因子有效性放在同一微观观察框架中。

定位
数据坐标 / sidecar 候选
背景
报告背景是2024年9月24日后A股在政策、ETF资金、融资融券和赚钱效应共同推动下出现放量行情,市场参与者结构和交易行为发生变化,需要从微观结构角度重新观察。
逻辑
核心逻辑是用早盘集中度、单笔委托金额、订单簿筹码充足率和程序化交易比例四类指标刻画市场交易状态,再结合既有高频因子的2023年以来表现,评估微观结构变化与因子有效性的关系。
方法
报告使用市场成交、融资融券、ETF持仓、逐笔或订单簿相关指标进行描述性观察;对高频因子部分,取因子20日滚动均值并在全市场做分组测试,展示累计IC曲线和行业、市值中性后的十分组单调性。
数据
材料涉及A股市场数据、沪深300指数成分股ETF持仓、全市场融资融券余额、早盘成交集中度、单笔成交金额、订单簿厚度、冲击成本和高频撤单比例等。关键日期包括2024年9月24日和2025年8月4日。
结果
截至2025年8月4日,融资融券余额超过1.99万亿元,早盘交易集中比例约25%;2024年9月以来订单簿逐渐增厚、冲击成本降低。高频因子方面,2023年以来MEMO多空收益29.3%,SR多空收益19.7%,LOTTERY多空收益32.9%,但报告称三者均有不同程度减弱。
特征工程
特征工程重点在于构造市场状态型高频变量:早盘交易集中度、单笔委托金额、订单簿厚度、冲击成本、高频撤单比例、程序化交易活跃度,以及将高维记忆、强反转和彩票委托等因子做滚动跟踪。
研究启发
可结合我们的OB/SF/sidecar/MLP/LGB/Linear/LLM因子管线,把市场活跃度、订单簿厚度、冲击成本、撤单率和程序化交易比例作为market-state/context sidecar,用于识别放量、拥挤、流动性改善和高频策略容量变化的regime shift。
管线落点
优先判断是否能成为 OB 1s exact-axis sidecar;候选 routes: llm_factor_pipeline。
可能增益
可能提升因子在不同市场阶段的稳定性,尤其是识别放量、拥挤、流动性改善或高频策略容量变化时的 regime shift。
IDEA-2026-W26-874bfa0c优先级 高分数 27

国信金工:基于主动买卖特征的高频订单因子改进

原题:Guosen Securities high-frequency order factor improvement via active buy-sell features
Curated Chinese Broker Microstructure Research · 2024-08-20 · candidate 打开来源
高频特征工程数据坐标 / 高频状态因子生成 / 表示学习
高频数据特征工程数据 sidecar / 高频衍生数据LLM 因子生成
  • 系统比较委托时间法和成交价格法的主动买卖识别缺陷
  • 提出结合价格和委托时间的方向修正方法
  • 把大单、漫长订单和主动方向合并为统一成交量占比框架
  • 用迭代分裂法筛选有效子因子并形成精选复合因子

报告研究逐笔成交数据中的主动买卖方向识别,并将其用于改进高频订单成交量占比因子。文章首先说明,逐笔成交数据记录每笔成交的数量、价格、时间以及买卖双方订单信息,是行情数据形成的源头;不同订单大小、成交时长、成交时间、成交价格和主动买卖特征,可能代表不同交易者结构与交易意图,从而对未来收益产生不同影响。报告聚焦“促成成交的是买方主动还是卖方主动”这一问题,比较两类常见主动方向划分方法。基于委托时间的方法认为委托时间更早的一方被动提供流动性,委托时间更晚的一方主动消耗流动性,可用委托时间或订单编号判断,但在涨停、跌停等场景中可能把大买单推动涨停后的后续成交误判为主卖。基于成交价格的方法依据当前成交价相对上一笔成交价上升或下降来判断主买或主卖,能较好处理涨跌停,但在价格冲高回落、同一笔委托多次成交时,可能把同一订单划入相反方向。为此,报告提出结合成交价格和委托时间的Price-Time Based方法:先用成交价格做初始判断,再记录首次出现时被识别为主买的委买单和主卖的委卖单,对重复出现订单进行方向修正,以保持交易倾向连续性。因子构建方面,报告先将传统大单交易占比拆为大买非大卖、非大买大卖、大买大卖等子因子,发现子因子方向并不一致,直接相加会削弱有效性;再引入主动买卖方向,把大单子因子进一步拆分为主买和主卖,筛选方向更清晰、选股能力更强的成分,形成改进大单因子。该因子自2017年以来月度RankIC均值9.09%、年化RankICIR 4.27、月胜率89.01%,多头月均超额0.84%、空头月均超额-1.73%。报告进一步将订单大小、成交时长和主动买卖方向纳入统一成交量占比框架,形成32类订单标签,并提出“迭代分裂法”:若继续引入主动方向后有效性明显提升则保留子因子,否则沿用父因子。最终精选复合因子月频RankIC均值8.93%、年化RankICIR 5.21、月胜率93.41%,周频RankIC均值5.59%、年化RankICIR 6.85,在宽基指数和多类风格股票池中均表现较强。报告还指出精选因子偏向低估值、大市值、低波动、低换手股票,剥离常见因子和行业后仍有稳健选股能力。

定位
高频数据特征工程候选
背景
报告背景是量价研究从日频、分钟、秒级进一步深入到逐笔成交数据。逐笔成交能记录订单参与成交的细节,适合研究不同交易者意图、主动性和信息优势对未来收益的影响。
逻辑
核心逻辑是主动成交方向会影响订单信息含义,同样的大单或漫长订单,如果由主动买入或主动卖出促成,其对未来收益的预测方向可能不同。因此应先可靠识别主动买卖方向,再对成交量占比因子进行拆分和重组。
方法
报告比较Time Based和Price Based主动方向识别,并提出结合成交价格和委托时间的方法:先按成交价变化初判方向,再依据订单首次出现方向标记交易倾向鲜明的主买委买单和主卖委卖单,对重复出现订单修正方向。因子上使用成交类型成交量占全天成交量比例,并取过去20日均值;筛选时采用迭代分裂法。
数据
报告使用A股逐笔成交数据,回测区间文本明确为2016年12月30日至2024年7月31日。示例包括贵州茅台、中际旭创、工业富联等股票的逐笔成交记录,并在全市场、宽基指数和不同风格股票池中测试。
结果
引入主动买卖特征的改进大单因子月度RankIC均值9.09%,年化RankICIR 4.27,月胜率89.01%,多头月均超额0.84%,空头月均超额-1.73%。精选复合因子月频RankIC均值8.93%,年化RankICIR 5.21,月胜率93.41%;周频RankIC均值5.59%,年化RankICIR 6.85,周胜率83.72%。纯净因子RankIC均值3.90%,年化RankICIR 4.66,月胜率90.11%。
特征工程
特征工程重点包括主动买卖方向、订单大小、成交时长、成交价格、成交量占比、订单首次出现方向、重复订单方向连续性和32类成交标签。相比单纯成交量统计,文章强调主动/被动、买/卖方向和订单属性交叉后的细粒度分类。
研究启发
可结合我们的OB/SF/sidecar/MLP/LGB/Linear/LLM因子管线,为成交流增加主动方向、主动强度和方向可靠度字段,并对Time Based、Price Based、Price-Time Based三种识别结果做一致性gate,提升短horizon预测的解释性和稳定性。
管线落点
优先进入高频 feature pool / sidecar taxonomy,同时服务 LGB/Linear/MLP 和 LLM factor prompt;候选 routes: hft_feature_engineering, data_processing_sidecar, llm_factor_pipeline。
可能增益
潜在增益在于把 trade flow 从简单量价序列拆成主动/被动、方向/强度、方法置信度三层,提高短 horizon 预测解释性。

高频订单流与微观结构

1 条 · 平均分 9.0
IDEA-2026-W26-f639fe4e优先级 中分数 9

RAVEN:面向金融时序预测的状态感知可变上下文专家网络

原题:RAVEN: A Regime-Aware Variable-context Expert Network for Financial Time Series Forecasting
arXiv HFT Time-Series Forecasting · 2026-06-23 · candidate 打开来源
因子生成 / 表示学习模型训练 / 序列预测数据坐标 / 高频状态
MLP 时序预测
  • 明确指出固定上下文窗口是金融非平稳预测中的结构性瓶颈
  • 用 CIT 在样本级动态生成嵌套连续窗口,而不是人工指定 lookback
  • 通过 GCR 保留全局上下文,并用 CAW 降低重叠专家的冗余相关性
  • 在 HS300、S&P500、基金销售和 PEMS 基准上报告了较强实验结果

这篇文章提出 RAVEN,即 Regime-Aware Variable-context Expert Network,用于解决金融时序预测中固定上下文窗口与非平稳市场状态不匹配的问题。作者指出,金融 log-return 与一般时间序列基准不同,通常信噪比极低、厚尾、非平稳,并且依赖会随市场 regime 改变。固定长度窗口 L 在这种环境中存在结构性矛盾:短窗口难以覆盖结构性状态变化,长窗口又会把上一状态的过时信息混入当前预测,形成噪声。传统树模型如 XGBoost、LightGBM 擅长处理手工特征的非线性交互,但忽略时间拓扑;RNN、LSTM、GRU 和 Transformer 类模型能够建模时序依赖,却通常仍依赖预设长度的历史上下文。RAVEN 的核心思想是让模型为每个样本自适应决定有效历史范围。它先把历史序列切成 patch,并按逆时间顺序学习每个 patch 的重要性;再通过 Cumulative Importance Thresholding 机制累计重要性,生成一组嵌套且连续的前缀窗口,每个窗口对应不同时间尺度,并路由给尺度专门化 expert。为避免局部专家只看到片段而破坏整体时间一致性,模型并行加入 Global Compressed Representation 分支,在完整上下文上压缩出全局表示。由于嵌套窗口之间天然重叠,多个 expert 输出可能高度相关,作者进一步提出 Correlation-Aware Weighting,在聚合前对可变长度 expert 表示进行形状对齐,并惩罚两两余弦相似度,以减少冗余噪声。实验覆盖 HS300 与 S&P500 的累计 log-return 预测、基金销售预测,以及四个 PEMS 交通流基准。结果显示,RAVEN 在金融预测中达到 SOTA,HS300 Pearson correlation 提升 9.2%,S&P500 提升 20.2%,基金销售预测 MSE 降低 18.2%;在 PEMS 交通数据上也取得 16 个指标中 14 个最优。文章的主要贡献是把“预测需要多长历史”从人工设定超参数改为样本级动态选择,并通过全局分支与去相关融合缓解多尺度专家的局部性和冗余问题。

定位
数据坐标 / sidecar 候选
背景
金融时序预测服务于风险管理、投资和自动交易,但金融数据不同于 ETTh、Weather、Electricity、Traffic 等常见基准,缺少稳定周期和确定趋势。价格水平具有随机游走、高自相关和尺度不可比问题,因此文章采用 log-return 回归,但 log-return 仍然低信噪比、厚尾且非平稳。
逻辑
文章认为,市场状态变化导致最优回看长度随样本变化。单一固定窗口无法同时处理短期噪声与长期 regime 迁移,因此应让模型动态选择上下文,并用多尺度专家分别处理不同长度的连续历史片段。同时,由于多尺度窗口存在重叠,需要在输出聚合时控制专家表示的相关性,避免重复噪声被放大。
方法
RAVEN 是 Mixture-of-Experts 框架。模型将输入序列切分为 patch,学习每个 patch 的重要性分数,并按逆时间方向累计;CIT 根据累计重要性阈值形成嵌套连续窗口,每个窗口都锚定最近 patch 并路由到尺度专门化 expert。GCR 分支并行读取完整上下文,保留全局时间一致性。CAW 对不同长度专家输出进行形状对齐,并通过惩罚 pairwise cosine similarity 来降低冗余,最后聚合形成预测。
数据
实验包括 HS300 与 S&P500 的累计 log-return 预测、基金销售预测,以及四个 PEMS 交通流数据集。文中示例还展示了 HS300 成分股 600176.SS 的日度 log-return 与 PEMS03 5 分钟交通流的连续小波变换图,用于说明金融数据能量分布非平稳且缺少固定周期,而交通流更稳定、更周期化。
结果
RAVEN 在金融任务上取得 SOTA 表现:HS300 Pearson correlation 提升 9.2%,S&P500 提升 20.2%,基金销售预测 MSE 降低 18.2%。在四个 PEMS 交通基准上,RAVEN 在 16 个指标中取得 14 个最佳结果。
特征工程
文章没有涉及订单簿层级、主动买卖、微价格或队列状态等微观结构特征,但其特征工程价值在于可变上下文选择:对高频时序特征,可把不同事件时间或物理时间窗口视为候选 patch,由模型按样本状态选择有效历史长度,并用去相关融合减少多窗口重叠带来的重复噪声。
研究启发
对 OB/SF/sidecar/MLP/LGB/Linear/LLM 因子管线的启发是模型结构层面:MLP 或深度时序模型可以不再固定使用单一 lookback,而是为订单流、盘口形态、成交节奏、横截面状态等特征构建嵌套窗口;LGB/Linear 可作为固定窗口基线,检验动态窗口是否真正增益;LLM 侧可用于解释不同 regime 下模型选择短窗口或长窗口的原因。
管线落点
优先判断是否能成为 OB 1s exact-axis sidecar;候选 routes: mlp_codeX。
可能增益
潜在增益在于提供 baseline 186 因子没有表达的状态变量,帮助筛出在特定微观结构状态下更可靠的短周期预测信号。

高分来源条目

#分数标题日期研究轴管线落点
134中信建投:市场微观结构系列研究,从分钟频到 Level2 的探索与发现
Curated Chinese Broker Microstructure Research
2025-12-17因子生成 / 表示学习, 高频特征工程, 数据坐标 / 高频状态LLM 因子生成, 高频数据特征工程
232TLOB:基于 LOB 数据和双注意力机制的股价趋势预测 Transformer 模型
Curated Model and Financial Time-Series Research
2025-02-21模型训练 / 序列预测, 数据坐标 / 高频状态, 评估审计 / 可比性MLP 时序预测, LLM 因子生成
329国信证券:高频订单成交数据蕴含的 Alpha 信息
Curated Chinese Broker Microstructure Research
2024-01-08因子生成 / 表示学习, 高频特征工程, 数据坐标 / 高频状态高频数据特征工程, LLM 因子生成, 数据 sidecar / 高频衍生数据
429Deep Limit Order Book Forecasting:深度限价订单簿预测与 LOBFrame 基准
Curated Model and Financial Time-Series Research
2024-03-14数据坐标 / 高频状态, 模型训练 / 序列预测, 因子生成 / 表示学习LLM 因子生成
529开源证券订单流系列:挂单方向长期记忆性的讨论与应用
Curated Chinese Broker Microstructure Research
2024-06-09数据坐标 / 高频状态, 高频特征工程数据 sidecar / 高频衍生数据, 高频数据特征工程, LLM 因子生成
629LiT:限价订单簿Transformer
Curated Model and Financial Time-Series Research
2025-10-01数据坐标 / 高频状态, 模型训练 / 序列预测LLM 因子生成, MLP 时序预测
728开源证券:市场微观结构观察与2023年以来的高频因子回顾
Curated Chinese Broker Microstructure Research
2025-08-06因子生成 / 表示学习, 数据坐标 / 高频状态LLM 因子生成
827国信金工:基于主动买卖特征的高频订单因子改进
Curated Chinese Broker Microstructure Research
2024-08-20高频特征工程, 数据坐标 / 高频状态, 因子生成 / 表示学习高频数据特征工程, 数据 sidecar / 高频衍生数据, LLM 因子生成
927基于注意力机制的限价订单簿读取、突出与全簿预测
Curated Model and Financial Time-Series Research
2024-09-03模型训练 / 序列预测, 数据坐标 / 高频状态MLP 时序预测, LLM 因子生成
1023双分支自监督学习识别市场操纵:融合频域异常合成与领域特征
OpenAlex Semantic Works Search
2026-06-08评估审计 / 可比性, 模型训练 / 序列预测, 数据坐标 / 高频状态回测与可比性审计, Linear/Ridge baseline, LLM 因子生成
1121Chain-of-Alpha:基于 LLM 的自动公式化 Alpha 挖掘框架
Curated AI Factor Generation and Backtest Method Research
2025-08-01因子生成 / 表示学习, 评估审计 / 可比性LLM 因子生成, 回测与可比性审计
1220LLM 驱动的自动稳健特征工程
Curated AI Factor Generation and Backtest Method Research
2025-01-01因子生成 / 表示学习, 高频特征工程LLM 因子生成, 高频数据特征工程
1320FactorMAD:基于 LLM 多智能体辩论的可解释 Alpha 因子挖掘
Curated AI Factor Generation and Backtest Method Research
2025-11-01因子生成 / 表示学习LLM 因子生成
1419AlphaAgent:用正则化探索对抗 Alpha 衰减的 LLM Alpha 挖掘框架
Curated AI Factor Generation and Backtest Method Research
2025-02-24因子生成 / 表示学习LLM 因子生成
1519面向稀疏投资组合优化的进化式 LLM Alpha 因子发现
Curated AI Factor Generation and Backtest Method Research
2025-11-01因子生成 / 表示学习LLM 因子生成
1617用 LLM 自动发现量化投资策略
Curated AI Factor Generation and Backtest Method Research
2025-11-01因子生成 / 表示学习, 评估审计 / 可比性LLM 因子生成
1710SkyJEPA:用于四旋翼零样本仿真到真实控制的长时域世界模型学习
arXiv HFT Time-Series Forecasting
2026-06-22模型训练 / 序列预测
189LENS:用于挖掘金融时序规律的大规模预训练 Transformer
Curated Model and Financial Time-Series Research
2024-08-19模型训练 / 序列预测MLP 时序预测
199LSTM、GRU 与 Transformer 在股票价格趋势预测中的比较分析
Curated Model and Financial Time-Series Research
2024-11-08模型训练 / 序列预测MLP 时序预测
209金融科技系统中的自适应风险评估:基于强化学习的连续策略优化
OpenAlex Semantic Works Search
2026-06-11因子生成 / 表示学习, 模型训练 / 序列预测LGB 融合与筛选, MLP 时序预测

本次采集状态

数据源状态条目说明
china_broker_microstructure_curatedok5
model_timeseries_curatedok6
ai_factor_method_curatedok6
arxiv_hft_timeseriesok24https://export.arxiv.org/api/query
openalex_hft_semanticok24https://api.openalex.org/works

数据源清单

数据源状态抓取方式优先级主题
china_broker_microstructure_curated
中文券商高频与市场微观结构精选
启用curated_seedhighchina_a_share, market_microstructure, level2, order_flow, tick_data, high_frequency_feature_engineering, order_imbalance, microprice, active_buy_sell, broker_research
model_timeseries_curated
模型与金融时序预测精选
启用curated_seedhighmlp, gru, lstm, transformer, cnn, tcn, limit_order_book, financial_time_series, high_frequency_feature_engineering, multi_horizon_forecasting
ai_factor_method_curated
AI 辅助因子生成与回测方法精选
启用curated_seedhighllm_factor_generation, alpha_mining, feature_engineering, multi_agent, backtest_feedback, factor_evolution
arxiv_hft_timeseries
arXiv 高频时序预测
启用arxiv_apihightime_series_prediction, market_microstructure, limit_order_book, deep_learning, gru, mlp, transformer, llm_factor_generation
openalex_hft_semantic
OpenAlex 语义论文检索
启用openalex_apihighsemantic_search, market_microstructure, time_series_prediction, model_training, high_frequency_feature_engineering, alpha_factor_generation
semantic_scholar_hft
Semantic Scholar 相关论文
观察semantic_scholar_apimediumcitation_graph, related_papers, impact
crossref_finance_metadata
Crossref 金融论文元数据补全
观察crossref_apimediumdoi_metadata, dedupe, publication_metadata
nber_working_papers
NBER Working Papers
观察rsslowmarket_structure, macro_context, empirical_finance
hkex_market_rss
港交所市场沟通 RSS
观察rsslowexchange_rules, market_structure, trading_mechanism
kysec_jianrong_quant_manual
开源证券/建榕量化研究人工检索
观察manual_web_searchhighmarket_microstructure, order_flow, tick_data, china_a_share
guosen_financial_engineering_manual
国信证券金融工程人工检索
观察manual_web_searchhightick_data, order_trade, active_buy_sell, broker_research
csc_microstructure_wechat_manual
中信建投市场微观结构人工检索
观察manual_web_searchhighlevel2, minute_frequency, market_microstructure, factor_mining
citics_research_portal_manual
中信证券研究门户人工检索
观察manual_web_searchmediumfinancial_engineering, market_structure, china_a_share
gf_financial_engineering_official_manual
广发证券金融工程人工检索
观察manual_web_searchmediumalgorithmic_trading, quant_factor, event_driven, market_structure
qiml_wechat_manual
量化投资与机器学习公众号人工检索
观察manual_web_searchmediumquant_media, machine_learning, industry_context
quantsplaybook_replication_github
券商金工研报复现代码库
观察manual_web_searchmediumbroker_research_replication, factor_research, code_review
sse_official_page
上交所官方页面 watcher
观察official_pagemediumexchange_rules, market_structure, china_a_share
szse_cninfo_api_manual
深交所/巨潮数据服务人工源
观察manual_web_searchmediumchina_a_share, exchange_disclosure, official_data_api
ssrn_manual_search
SSRN 人工检索
观察manual_web_searchmediumworking_papers, market_microstructure, empirical_finance