高频时序预测研究 Idea 周报 2026-W25

周报归档周期 2026-06-15 至 2026-06-21;本次 demo 允许近三年研究启发,实际采集窗口为 2023-06-16 至 2026-06-21。页面按研究类别组织,每篇文章尽量拆解背景、逻辑、方法、数据、结果、启发,并特别标注高频数据特征工程对 OB/SF/sidecar/MLP/LGB/Linear/LLM 因子管线的可能增益。

41来源条目
23候选想法
5启用数据源
2026-06-16.v4数据源版本
本周候选只代表研究启发,不代表可直接上线。阅读重点从“短摘要”改为“研究拆解”:看清背景、逻辑、方法、数据、结果和对我们高频特征工程/模型/因子管线的迁移方式。

AI 辅助因子生成

8 条 · 平均分 17.2
IDEA-2026-W25-a27f038b优先级 高分数 21

回测反馈驱动的因子生成链:把候选、优化和评估串成闭环

原题:Chain-of-Alpha: LLM-based framework for automated formulaic alpha mining
Curated AI Factor Generation and Backtest Method Research · 2025-08-01 · candidate 打开来源
因子生成 / 表示学习评估审计 / 可比性
LLM 因子生成回测与可比性审计

回测反馈驱动的因子生成链:把候选、优化和评估串成闭环 的核心价值不只是提供一条新闻或论文标题,而是给我们的高频时序预测研究提供一个可拆解的机制样本。研究强调因子生成链和因子优化链,用回测反馈和先验知识迭代改进公式化 Alpha。 从周报使用角度看,需要同时阅读其问题背景、可观测数据、建模逻辑、实验结果和对我们现有 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线的迁移方式。

定位
评估审计 / 可比性候选
背景
来源为AI 辅助因子生成与回测方法精选,日期 2025-08-01。 它更偏评估和研究治理背景。高频模型和因子的离线指标很容易被样本切分、交易成本、异常事件、状态混合或 baseline regime 污染。这类材料的价值在于帮助我们改进实验解释、结果可比性和研究闭环,而不是直接生成一个 predictor。
逻辑
系统识别出的研究轴为:因子生成 / 表示学习, 评估审计 / 可比性;可能落点为:LLM 因子生成, 回测与可比性审计。核心逻辑是从研究治理角度补足我们的实验链条:将外部观点映射到数据、模型、评价和人工 review 的具体节点,避免材料只停留在阅读归档。
方法
当前元数据没有给出完整方法细节,需要后续人工精读补足。 如果进入研究库,建议把方法拆成可执行对象:数据输入、变换函数、评估对象和人工 review 标准,方便以后复用。
数据
当前材料没有明确列出数据字段,需要人工确认其数据可观测性。 如果该条目继续推进,需要把外部数据概念翻译成我们本地已有字段或明确的新 sidecar 需求。
结果
已有材料给出的结果/观点是:研究强调因子生成链和因子优化链,用回测反馈和先验知识迭代改进公式化 Alpha。 对我们来说,可能增益是:可能提升周报 idea 与实际因子实验之间的转化率,让外部研究不只是归档,而能形成下一轮 prompt 的结构化约束。 周报层面只保留这种机制级结论,真正进入实验前仍需用我们的数据、标签和评估口径重新验证。
特征工程
该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 对 LLM 因子管线而言,高频特征工程可以变成 prompt 约束:优先提出新的观察坐标、字段组合和机制解释,减少重复 rolling-window 变体。LLM 生成的候选特征需要被结构化为字段合同、函数模板、去重标签和人工 review 条目。
研究启发
对我们研究的直接启发是:可用于我们每周 idea -> LLM prompt -> factor card -> L0-L4 -> SFT/BT -> 经验库的闭环设计。 预期增益是:可能提升周报 idea 与实际因子实验之间的转化率,让外部研究不只是归档,而能形成下一轮 prompt 的结构化约束。 与高频特征工程的关系是:该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 对 LLM 因子管线而言,高频特征工程可以变成 prompt 约束:优先提出新的观察坐标、字段组合和机制解释,减少重复 rolling-window 变体。LLM 生成的候选特征需要被结构化为字段合同、函数模板、去重标签和人工 review 条目。
管线落点
优先进入审计/评估方法库,服务 baseline 可比性和 SFT/BT 可信度;候选 routes: llm_factor_pipeline, backtest_audit。
可能增益
可能提升周报 idea 与实际因子实验之间的转化率,让外部研究不只是归档,而能形成下一轮 prompt 的结构化约束。
IDEA-2026-W25-bfce6abb优先级 高分数 20

FactorMAD:基于 LLM 多智能体辩论的可解释 Alpha 挖掘

原题:FactorMAD: A Multi-Agent Debate Framework Based on Large Language Models for Interpretable Alpha Factor Mining
Curated AI Factor Generation and Backtest Method Research · 2025-11-01 · candidate 打开来源
因子生成 / 表示学习
LLM 因子生成

FactorMAD:基于 LLM 多智能体辩论的可解释 Alpha 挖掘 的核心价值不只是提供一条新闻或论文标题,而是给我们的高频时序预测研究提供一个可拆解的机制样本。研究把多智能体辩论用于 Alpha 因子挖掘,重点是可解释性和候选因子的机制讨论。 从周报使用角度看,需要同时阅读其问题背景、可观测数据、建模逻辑、实验结果和对我们现有 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线的迁移方式。

定位
因子生成 / prompt 候选
背景
来源为AI 辅助因子生成与回测方法精选,日期 2025-11-01。 它进入周报的背景是 LLM 因子生成已经从一次性写表达式,逐步转向有记忆、有反馈、有审计的研究系统。这与我们的 llm_factor_pipeline 直接相关:每周外部研究可以沉淀为 prompt 约束、字段合同、失败经验、机制 taxonomy 和下一轮 discovery 的候选方向。
逻辑
系统识别出的研究轴为:因子生成 / 表示学习;可能落点为:LLM 因子生成。核心逻辑是把外部研究机制转化为机器可执行的因子发现约束:字段必须可观测,表达式必须 past-only,候选必须能解释经济行为,失败经验要反哺下一轮生成。LLM 在这里更像研究编排器和特征工程助手,而不是替代回测和人工判断的黑箱。
方法
文本中命中的方法关键词包括:multi-agent。 AI 因子类文章应抽取 agent 分工、反馈来源、搜索约束和去重机制。在我们的管线里,方法可落成 prompt 片段、review rubric、static analyzer 检查项、失败模式标签和经验库字段,而不是只写成一段摘要。
数据
当前材料没有明确列出数据字段,需要人工确认其数据可观测性。 如果该条目继续推进,需要把外部数据概念翻译成我们本地已有字段或明确的新 sidecar 需求。
结果
已有材料给出的结果/观点是:研究把多智能体辩论用于 Alpha 因子挖掘,重点是可解释性和候选因子的机制讨论。 对我们来说,可能增益是:可能提升候选因子机制质量,减少看似复杂但实际不可解释或不可交易的表达式。 周报层面只保留这种机制级结论,真正进入实验前仍需用我们的数据、标签和评估口径重新验证。
特征工程
该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 对 LLM 因子管线而言,高频特征工程可以变成 prompt 约束:优先提出新的观察坐标、字段组合和机制解释,减少重复 rolling-window 变体。LLM 生成的候选特征需要被结构化为字段合同、函数模板、去重标签和人工 review 条目。
研究启发
对我们研究的直接启发是:可让 LLM 因子 pipeline 增加 debate/reviewer 阶段:一个 agent 提机制,一个 agent 查泄露,一个 agent 查字段合同,一个 agent 查经济含义。 预期增益是:可能提升候选因子机制质量,减少看似复杂但实际不可解释或不可交易的表达式。 与高频特征工程的关系是:该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 对 LLM 因子管线而言,高频特征工程可以变成 prompt 约束:优先提出新的观察坐标、字段组合和机制解释,减少重复 rolling-window 变体。LLM 生成的候选特征需要被结构化为字段合同、函数模板、去重标签和人工 review 条目。
管线落点
可作为 LLM prompt、taxonomy 或人工研究背景;候选 routes: llm_factor_pipeline。
可能增益
可能提升候选因子机制质量,减少看似复杂但实际不可解释或不可交易的表达式。
IDEA-2026-W25-e82cae75优先级 高分数 20

LLM + 进化优化的稳健特征工程:从手工因子到自动特征发现

原题:LLM-Driven Automated Robust Feature Engineering
Curated AI Factor Generation and Backtest Method Research · 2025-01-01 · candidate 打开来源
因子生成 / 表示学习高频特征工程
LLM 因子生成高频数据特征工程

LLM + 进化优化的稳健特征工程:从手工因子到自动特征发现 的核心价值不只是提供一条新闻或论文标题,而是给我们的高频时序预测研究提供一个可拆解的机制样本。研究把 LLM 与进化优化结合,用于自动发现稳健、可解释的特征。 从周报使用角度看,需要同时阅读其问题背景、可观测数据、建模逻辑、实验结果和对我们现有 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线的迁移方式。

定位
高频数据特征工程候选
背景
来源为AI 辅助因子生成与回测方法精选,日期 2025-01-01。 它进入周报的背景是:我们当前做的是短 horizon 高频时序预测,原始 OB、逐笔成交、StreamFactors 和 sidecar 数据里有大量可观测但未必被充分表达的交易行为。单纯把价量列展平给模型,容易让 MLP/LGB/Linear 学到噪声、重复 rolling 统计或状态混合后的弱信号;特征工程的价值在于把盘口压力、主动成交、队列消耗、价格层记忆、事件时间节奏等机制先结构化,再交给模型或 LLM 因子管线使用。
逻辑
系统识别出的研究轴为:因子生成 / 表示学习, 高频特征工程;可能落点为:LLM 因子生成, 高频数据特征工程。核心逻辑是先把市场微观行为拆成可解释的中间变量,再让监督模型或 LLM 因子生成器使用这些变量。例如,订单不平衡描述当前买卖压力,队列/深度变化描述被动流动性供给,主动买卖和大单拆分描述交易者意图,价格层记忆描述盘口压力是否持续。这种逻辑比直接增加窗口统计更接近交易机制,也更容易形成可审计的 sidecar 字段。
方法
文本中命中的方法关键词包括:feature engineering。 对我们而言,方法应被改写成可批量计算的特征模板:先定义字段、时间轴和聚合粒度,再定义变换方式,例如方向拆分、价层分桶、成交主动性识别、队列变化、状态交互和稳定性去重。生成后的特征不应直接混入生产 baseline,而应先作为 sidecar 或 candidate pool 被 MLP/LGB/Linear 和 LLM 因子管线共同消费。
数据
当前材料没有明确列出数据字段,需要人工确认其数据可观测性。 映射到我们的项目时,应优先考虑 OB 1s、逐笔成交、逐笔委托、StreamFactors、PriceLevelMemory、CrossSectional/MarketContext 等数据族。重点不是简单多加字段,而是确认每个字段的时间戳、撮合语义、买卖方向、价格层位置和缺失 stock-day 处理方式,使其能稳定成为 sidecar 或模型输入。
结果
已有材料给出的结果/观点是:研究把 LLM 与进化优化结合,用于自动发现稳健、可解释的特征。 对我们来说,预期增益是:潜在增益是把 AI 从“写单个因子”升级为“维护候选特征池和失败经验库”。 这里的结果不应被理解为可直接复制的收益结论,而应被理解为特征设计方向的证据:哪些微观行为被证明有信息含量,哪些表示方式可能比普通价量 rolling 更接近交易机制。
特征工程
命中的高频特征工程线索:feature engineering。 建议把启发拆成四类候选特征:第一,订单流方向与强度,例如主动买卖、signed volume、订单不平衡和大单拆分;第二,盘口形态与价格层,例如 spread、depth slope、microprice、价层压力和队列不平衡;第三,路径记忆与事件时间,例如挂单方向自相关、成交时长、撤单节奏、volume clock 和 tick clock;第四,状态交互,例如流动性状态下的反转/延续、横截面拥挤度下的信号可靠性。这些特征应优先以 sidecar/feature pool 方式落地,既能给 LGB/Linear 做可解释吸收,也能给 MLP/GRU/Transformer 提供结构化输入,并给 LLM 因子生成提供字段合同。
研究启发
对我们研究的直接启发是:可用于我们的 LGB/Linear/MLP 特征工程侧:把 LLM 生成的候选表达先过 static analyzer、相关性去重、稳定性 proxy,再进入 SFT/BT。 预期增益是:潜在增益是把 AI 从“写单个因子”升级为“维护候选特征池和失败经验库”。 更具体地说,它应该进入“高频数据特征工程”待办池,而不是只作为文章摘要保存。后续周报可以围绕它追踪相邻论文、券商金工报告、代码实现和我们已有实验中的失败/成功模式,逐步形成可复用的特征 taxonomy。
管线落点
优先进入高频 feature pool / sidecar taxonomy,同时服务 LGB/Linear/MLP 和 LLM factor prompt;候选 routes: llm_factor_pipeline, hft_feature_engineering。
可能增益
潜在增益是把 AI 从“写单个因子”升级为“维护候选特征池和失败经验库”。
IDEA-2026-W25-31e382a1优先级 高分数 19

AlphaAgent:带正则化探索的 LLM Alpha 挖掘

原题:AlphaAgent: LLM-Driven Alpha Mining with Regularized Exploration
Curated AI Factor Generation and Backtest Method Research · 2025-02-24 · candidate 打开来源
因子生成 / 表示学习
LLM 因子生成

AlphaAgent:带正则化探索的 LLM Alpha 挖掘 的核心价值不只是提供一条新闻或论文标题,而是给我们的高频时序预测研究提供一个可拆解的机制样本。研究把 LLM 用于 Alpha 挖掘,并强调正则化探索、历史经验和反馈机制,避免生成大量冗余或不可用因子。 从周报使用角度看,需要同时阅读其问题背景、可观测数据、建模逻辑、实验结果和对我们现有 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线的迁移方式。

定位
因子生成 / prompt 候选
背景
来源为AI 辅助因子生成与回测方法精选,日期 2025-02-24。 它进入周报的背景是 LLM 因子生成已经从一次性写表达式,逐步转向有记忆、有反馈、有审计的研究系统。这与我们的 llm_factor_pipeline 直接相关:每周外部研究可以沉淀为 prompt 约束、字段合同、失败经验、机制 taxonomy 和下一轮 discovery 的候选方向。
逻辑
系统识别出的研究轴为:因子生成 / 表示学习;可能落点为:LLM 因子生成。核心逻辑是把外部研究机制转化为机器可执行的因子发现约束:字段必须可观测,表达式必须 past-only,候选必须能解释经济行为,失败经验要反哺下一轮生成。LLM 在这里更像研究编排器和特征工程助手,而不是替代回测和人工判断的黑箱。
方法
当前元数据没有给出完整方法细节,需要后续人工精读补足。 AI 因子类文章应抽取 agent 分工、反馈来源、搜索约束和去重机制。在我们的管线里,方法可落成 prompt 片段、review rubric、static analyzer 检查项、失败模式标签和经验库字段,而不是只写成一段摘要。
数据
当前材料没有明确列出数据字段,需要人工确认其数据可观测性。 如果该条目继续推进,需要把外部数据概念翻译成我们本地已有字段或明确的新 sidecar 需求。
结果
已有材料给出的结果/观点是:研究把 LLM 用于 Alpha 挖掘,并强调正则化探索、历史经验和反馈机制,避免生成大量冗余或不可用因子。 对我们来说,可能增益是:潜在增益是减少重复 rolling-window 因子、降低 invented field 风险,提高 LLM 因子生成的有效探索率。 周报层面只保留这种机制级结论,真正进入实验前仍需用我们的数据、标签和评估口径重新验证。
特征工程
该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 对 LLM 因子管线而言,高频特征工程可以变成 prompt 约束:优先提出新的观察坐标、字段组合和机制解释,减少重复 rolling-window 变体。LLM 生成的候选特征需要被结构化为字段合同、函数模板、去重标签和人工 review 条目。
研究启发
对我们研究的直接启发是:与我们的 llm_factor_pipeline 高度契合:可把 L0-L4、SFT、BT 失败原因写回经验库,用于下一轮 prompt 和候选因子约束。 预期增益是:潜在增益是减少重复 rolling-window 因子、降低 invented field 风险,提高 LLM 因子生成的有效探索率。 与高频特征工程的关系是:该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 对 LLM 因子管线而言,高频特征工程可以变成 prompt 约束:优先提出新的观察坐标、字段组合和机制解释,减少重复 rolling-window 变体。LLM 生成的候选特征需要被结构化为字段合同、函数模板、去重标签和人工 review 条目。
管线落点
可作为 LLM prompt、taxonomy 或人工研究背景;候选 routes: llm_factor_pipeline。
可能增益
潜在增益是减少重复 rolling-window 因子、降低 invented field 风险,提高 LLM 因子生成的有效探索率。
IDEA-2026-W25-7c9e1e60优先级 高分数 19

进化式 LLM Alpha 因子发现:用反馈循环迭代优化因子池

原题:Evolutionary Alpha Factor Discovery with Large Language Models for Sparse Portfolio Optimization
Curated AI Factor Generation and Backtest Method Research · 2025-11-01 · candidate 打开来源
因子生成 / 表示学习
LLM 因子生成

进化式 LLM Alpha 因子发现:用反馈循环迭代优化因子池 的核心价值不只是提供一条新闻或论文标题,而是给我们的高频时序预测研究提供一个可拆解的机制样本。研究用 LLM 自动生成并迭代优化 Alpha 因子,把因子信号和投资组合选择反馈结合起来。 从周报使用角度看,需要同时阅读其问题背景、可观测数据、建模逻辑、实验结果和对我们现有 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线的迁移方式。

定位
因子生成 / prompt 候选
背景
来源为AI 辅助因子生成与回测方法精选,日期 2025-11-01。 它进入周报的背景是 LLM 因子生成已经从一次性写表达式,逐步转向有记忆、有反馈、有审计的研究系统。这与我们的 llm_factor_pipeline 直接相关:每周外部研究可以沉淀为 prompt 约束、字段合同、失败经验、机制 taxonomy 和下一轮 discovery 的候选方向。
逻辑
系统识别出的研究轴为:因子生成 / 表示学习;可能落点为:LLM 因子生成。核心逻辑是把外部研究机制转化为机器可执行的因子发现约束:字段必须可观测,表达式必须 past-only,候选必须能解释经济行为,失败经验要反哺下一轮生成。LLM 在这里更像研究编排器和特征工程助手,而不是替代回测和人工判断的黑箱。
方法
文本中命中的方法关键词包括:evolutionary。 AI 因子类文章应抽取 agent 分工、反馈来源、搜索约束和去重机制。在我们的管线里,方法可落成 prompt 片段、review rubric、static analyzer 检查项、失败模式标签和经验库字段,而不是只写成一段摘要。
数据
当前材料没有明确列出数据字段,需要人工确认其数据可观测性。 如果该条目继续推进,需要把外部数据概念翻译成我们本地已有字段或明确的新 sidecar 需求。
结果
已有材料给出的结果/观点是:研究用 LLM 自动生成并迭代优化 Alpha 因子,把因子信号和投资组合选择反馈结合起来。 对我们来说,可能增益是:可能让 LLM 因子生成从一次性 prompt 变成带记忆的持续研究系统。 周报层面只保留这种机制级结论,真正进入实验前仍需用我们的数据、标签和评估口径重新验证。
特征工程
该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 对 LLM 因子管线而言,高频特征工程可以变成 prompt 约束:优先提出新的观察坐标、字段组合和机制解释,减少重复 rolling-window 变体。LLM 生成的候选特征需要被结构化为字段合同、函数模板、去重标签和人工 review 条目。
研究启发
对我们研究的直接启发是:可把我们的 discovery -> SFT -> BT 结果变成进化反馈:保留机制、变异表达、约束字段、淘汰低质量模式。 预期增益是:可能让 LLM 因子生成从一次性 prompt 变成带记忆的持续研究系统。 与高频特征工程的关系是:该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 对 LLM 因子管线而言,高频特征工程可以变成 prompt 约束:优先提出新的观察坐标、字段组合和机制解释,减少重复 rolling-window 变体。LLM 生成的候选特征需要被结构化为字段合同、函数模板、去重标签和人工 review 条目。
管线落点
可作为 LLM prompt、taxonomy 或人工研究背景;候选 routes: llm_factor_pipeline。
可能增益
可能让 LLM 因子生成从一次性 prompt 变成带记忆的持续研究系统。
IDEA-2026-W25-9dfdbf58优先级 高分数 17

LLM 自动策略发现:风险感知多智能体生成可执行 Alpha 因子

原题:Automate Strategy Finding with LLM in Quant Investment
Curated AI Factor Generation and Backtest Method Research · 2025-11-01 · candidate 打开来源
因子生成 / 表示学习评估审计 / 可比性
LLM 因子生成

LLM 自动策略发现:风险感知多智能体生成可执行 Alpha 因子 的核心价值不只是提供一条新闻或论文标题,而是给我们的高频时序预测研究提供一个可拆解的机制样本。研究提出多阶段、多智能体框架,用 LLM 生成可执行 Alpha 候选,并加入风险感知与评估反馈。 从周报使用角度看,需要同时阅读其问题背景、可观测数据、建模逻辑、实验结果和对我们现有 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线的迁移方式。

定位
因子生成 / prompt 候选
背景
来源为AI 辅助因子生成与回测方法精选,日期 2025-11-01。 它进入周报的背景是 LLM 因子生成已经从一次性写表达式,逐步转向有记忆、有反馈、有审计的研究系统。这与我们的 llm_factor_pipeline 直接相关:每周外部研究可以沉淀为 prompt 约束、字段合同、失败经验、机制 taxonomy 和下一轮 discovery 的候选方向。
逻辑
系统识别出的研究轴为:因子生成 / 表示学习, 评估审计 / 可比性;可能落点为:LLM 因子生成。核心逻辑是把外部研究机制转化为机器可执行的因子发现约束:字段必须可观测,表达式必须 past-only,候选必须能解释经济行为,失败经验要反哺下一轮生成。LLM 在这里更像研究编排器和特征工程助手,而不是替代回测和人工判断的黑箱。
方法
当前元数据没有给出完整方法细节,需要后续人工精读补足。 AI 因子类文章应抽取 agent 分工、反馈来源、搜索约束和去重机制。在我们的管线里,方法可落成 prompt 片段、review rubric、static analyzer 检查项、失败模式标签和经验库字段,而不是只写成一段摘要。
数据
当前材料没有明确列出数据字段,需要人工确认其数据可观测性。 如果该条目继续推进,需要把外部数据概念翻译成我们本地已有字段或明确的新 sidecar 需求。
结果
已有材料给出的结果/观点是:研究提出多阶段、多智能体框架,用 LLM 生成可执行 Alpha 候选,并加入风险感知与评估反馈。 对我们来说,可能增益是:潜在增益是提高因子代码可执行率和研究流程可追溯性,减少人工从零构思的成本。 周报层面只保留这种机制级结论,真正进入实验前仍需用我们的数据、标签和评估口径重新验证。
特征工程
该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 对 LLM 因子管线而言,高频特征工程可以变成 prompt 约束:优先提出新的观察坐标、字段组合和机制解释,减少重复 rolling-window 变体。LLM 生成的候选特征需要被结构化为字段合同、函数模板、去重标签和人工 review 条目。
研究启发
对我们研究的直接启发是:可映射到我们的多 agent 因子发现:生成、批评、静态分析、回测代理、人工 review 分工更明确。 预期增益是:潜在增益是提高因子代码可执行率和研究流程可追溯性,减少人工从零构思的成本。 与高频特征工程的关系是:该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 对 LLM 因子管线而言,高频特征工程可以变成 prompt 约束:优先提出新的观察坐标、字段组合和机制解释,减少重复 rolling-window 变体。LLM 生成的候选特征需要被结构化为字段合同、函数模板、去重标签和人工 review 条目。
管线落点
可作为 LLM prompt、taxonomy 或人工研究背景;候选 routes: llm_factor_pipeline。
可能增益
潜在增益是提高因子代码可执行率和研究流程可追溯性,减少人工从零构思的成本。
IDEA-2026-W25-3885b664优先级 中分数 13

人机混合金融:从 AI 工具到决策系统

原题:Human–AI hybrid finance: from AI tools to decision systems
OpenAlex Semantic Works Search · 2026-05-31 · candidate 打开来源
数据坐标 / 高频状态评估审计 / 可比性因子生成 / 表示学习
人工复核

人机混合金融:从 AI 工具到决策系统 的核心价值不只是提供一条新闻或论文标题,而是给我们的高频时序预测研究提供一个可拆解的机制样本。该方向强调 AI 不只是单点工具,而是嵌入研究、评估和决策闭环的系统。对我们而言,价值在于把周报 idea、LLM 因子生成、静态分析、SFT/BT 和人工 review 串成可追溯决策链。 从周报使用角度看,需要同时阅读其问题背景、可观测数据、建模逻辑、实验结果和对我们现有 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线的迁移方式。

定位
数据坐标 / sidecar 候选
背景
来源为OpenAlex 语义论文检索,日期 2026-05-31。 它对应的是高频数据坐标的扩展问题:同一条价格或成交序列,在时间钟、成交量钟、事件钟、价格层、队列位置和横截面环境下会呈现不同状态。如果外部研究能提供新的观察坐标,就可能帮助我们摆脱普通滚动均值/标准差的局限,把短周期预测拆成状态识别、信号生成和可靠性判断。
逻辑
系统识别出的研究轴为:数据坐标 / 高频状态, 评估审计 / 可比性, 因子生成 / 表示学习;可能落点为:人工复核。核心逻辑是改变观察坐标:从同步时钟转向事件时钟,从单股票转向横截面/市场状态,从当前盘口转向路径记忆和价格层状态。如果新坐标能解释某些 horizon 下信号为何增强或失效,它就可以作为 context、gate 或 predictor 的上游。
方法
当前元数据没有给出完整方法细节,需要后续人工精读补足。 如果进入研究库,建议把方法拆成可执行对象:数据输入、变换函数、评估对象和人工 review 标准,方便以后复用。
数据
当前材料没有明确列出数据字段,需要人工确认其数据可观测性。 映射到我们的项目时,应优先考虑 OB 1s、逐笔成交、逐笔委托、StreamFactors、PriceLevelMemory、CrossSectional/MarketContext 等数据族。重点不是简单多加字段,而是确认每个字段的时间戳、撮合语义、买卖方向、价格层位置和缺失 stock-day 处理方式,使其能稳定成为 sidecar 或模型输入。
结果
已有材料给出的结果/观点是:该方向强调 AI 不只是单点工具,而是嵌入研究、评估和决策闭环的系统。对我们而言,价值在于把周报 idea、LLM 因子生成、静态分析、SFT/BT 和人工 review 串成可追溯决策链。 对我们来说,可能增益是:潜在增益是减少人工遗漏、提高失败经验复用率,并让每周外部研究稳定转化为可验证候选。 周报层面只保留这种机制级结论,真正进入实验前仍需用我们的数据、标签和评估口径重新验证。
特征工程
该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 特征工程关注点是把新数据坐标变成稳定字段:价格层记忆、事件状态、横截面上下文、成交路径和可靠性 gate。每个字段都应说明它是 predictor、context/gate、normalizer 还是评价辅助,避免把所有信息都混成同质特征。
研究启发
对我们研究的直接启发是:可把 LLM pipeline 从“生成 compute_factors”扩展为“研究助理 + 因子工程师 + 审计员 + 实验记录员”的组合流程。 预期增益是:潜在增益是减少人工遗漏、提高失败经验复用率,并让每周外部研究稳定转化为可验证候选。 与高频特征工程的关系是:该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 特征工程关注点是把新数据坐标变成稳定字段:价格层记忆、事件状态、横截面上下文、成交路径和可靠性 gate。每个字段都应说明它是 predictor、context/gate、normalizer 还是评价辅助,避免把所有信息都混成同质特征。
管线落点
优先判断是否能成为 OB 1s exact-axis sidecar;候选 routes: manual_review。
可能增益
潜在增益是减少人工遗漏、提高失败经验复用率,并让每周外部研究稳定转化为可验证候选。
IDEA-2026-W25-572e9fa1优先级 中分数 9

待人工翻译:From Knowing to Doing: A Memory-Controlled Benchmark for LLM Trading Agents on Stock Markets

原题:From Knowing to Doing: A Memory-Controlled Benchmark for LLM Trading Agents on Stock Markets
OpenAlex Semantic Works Search · 2026-05-27 · candidate 打开来源
因子生成 / 表示学习评估审计 / 可比性
LLM 因子生成回测与可比性审计

待人工翻译:From Knowing to Doing: A Memory-Controlled Benchmark for LLM Trading Agents on Stock Markets 的核心价值不只是提供一条新闻或论文标题,而是给我们的高频时序预测研究提供一个可拆解的机制样本。英文来源尚未人工精读,本页只保留元数据;进入实验前需要补充中文机制摘要。 从周报使用角度看,需要同时阅读其问题背景、可观测数据、建模逻辑、实验结果和对我们现有 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线的迁移方式。

定位
评估审计 / 可比性候选
背景
来源为OpenAlex 语义论文检索,日期 2026-05-27。 它更偏评估和研究治理背景。高频模型和因子的离线指标很容易被样本切分、交易成本、异常事件、状态混合或 baseline regime 污染。这类材料的价值在于帮助我们改进实验解释、结果可比性和研究闭环,而不是直接生成一个 predictor。
逻辑
系统识别出的研究轴为:因子生成 / 表示学习, 评估审计 / 可比性;可能落点为:LLM 因子生成, 回测与可比性审计。核心逻辑是从研究治理角度补足我们的实验链条:将外部观点映射到数据、模型、评价和人工 review 的具体节点,避免材料只停留在阅读归档。
方法
当前元数据没有给出完整方法细节,需要后续人工精读补足。 如果进入研究库,建议把方法拆成可执行对象:数据输入、变换函数、评估对象和人工 review 标准,方便以后复用。
数据
可观测数据线索包括:trade。 如果该条目继续推进,需要把外部数据概念翻译成我们本地已有字段或明确的新 sidecar 需求。
结果
当前采集材料还没有形成可靠的精读结论,因此不能把论文声称直接当成我们项目的结果。本周只把它作为候选机制或方法线索保留;后续如果进入研究池,需要补充论文数据集、对照基线、评价指标和主要发现。
特征工程
该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 对 LLM 因子管线而言,高频特征工程可以变成 prompt 约束:优先提出新的观察坐标、字段组合和机制解释,减少重复 rolling-window 变体。LLM 生成的候选特征需要被结构化为字段合同、函数模板、去重标签和人工 review 条目。
研究启发
对我们研究的直接启发是:启发重点是补强 baseline regime、OOS、交易成本、样本选择和风险事件识别,降低研究结论被实验口径污染的概率。 预期增益是:潜在增益在于减少不可比实验、泄露和过拟合带来的误判,让 SFT/BT 结论更可信。 与高频特征工程的关系是:该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 对 LLM 因子管线而言,高频特征工程可以变成 prompt 约束:优先提出新的观察坐标、字段组合和机制解释,减少重复 rolling-window 变体。LLM 生成的候选特征需要被结构化为字段合同、函数模板、去重标签和人工 review 条目。
管线落点
优先进入审计/评估方法库,服务 baseline 可比性和 SFT/BT 可信度;候选 routes: llm_factor_pipeline, backtest_audit。
可能增益
潜在增益在于减少不可比实验、泄露和过拟合带来的误判,让 SFT/BT 结论更可信。

时序预测模型与 LOB

5 条 · 平均分 21.6
IDEA-2026-W25-616a0955优先级 高分数 32

TLOB / MLPLOB:基于 LOB 数据的 MLP 与双注意力 Transformer 趋势预测

原题:A Novel Transformer Model with Dual Attention for Stock Price Trend Prediction with Limit Order Book Data
Curated Model and Financial Time-Series Research · 2025-02-21 · candidate 打开来源
模型训练 / 序列预测数据坐标 / 高频状态评估审计 / 可比性
MLP 时序预测LLM 因子生成

TLOB / MLPLOB:基于 LOB 数据的 MLP 与双注意力 Transformer 趋势预测 的核心价值不只是提供一条新闻或论文标题,而是给我们的高频时序预测研究提供一个可拆解的机制样本。研究比较简单 MLPLOB 和双注意力 Transformer TLOB,用多档 LOB 序列预测股票价格趋势。它对我们有价值的地方是把 MLP 作为强基线,而不是只把 Transformer 当作唯一方向。 从周报使用角度看,需要同时阅读其问题背景、可观测数据、建模逻辑、实验结果和对我们现有 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线的迁移方式。

定位
数据坐标 / sidecar 候选
背景
来源为模型与金融时序预测精选,日期 2025-02-21。 它对应的是高频数据坐标的扩展问题:同一条价格或成交序列,在时间钟、成交量钟、事件钟、价格层、队列位置和横截面环境下会呈现不同状态。如果外部研究能提供新的观察坐标,就可能帮助我们摆脱普通滚动均值/标准差的局限,把短周期预测拆成状态识别、信号生成和可靠性判断。
逻辑
系统识别出的研究轴为:模型训练 / 序列预测, 数据坐标 / 高频状态, 评估审计 / 可比性;可能落点为:MLP 时序预测, LLM 因子生成。核心逻辑是改变观察坐标:从同步时钟转向事件时钟,从单股票转向横截面/市场状态,从当前盘口转向路径记忆和价格层状态。如果新坐标能解释某些 horizon 下信号为何增强或失效,它就可以作为 context、gate 或 predictor 的上游。
方法
文本中命中的方法关键词包括:MLP, transformer, attention。 如果进入研究库,建议把方法拆成可执行对象:数据输入、变换函数、评估对象和人工 review 标准,方便以后复用。
数据
可观测数据线索包括:limit order book, order book。 映射到我们的项目时,应优先考虑 OB 1s、逐笔成交、逐笔委托、StreamFactors、PriceLevelMemory、CrossSectional/MarketContext 等数据族。重点不是简单多加字段,而是确认每个字段的时间戳、撮合语义、买卖方向、价格层位置和缺失 stock-day 处理方式,使其能稳定成为 sidecar 或模型输入。
结果
已有材料给出的结果/观点是:研究比较简单 MLPLOB 和双注意力 Transformer TLOB,用多档 LOB 序列预测股票价格趋势。它对我们有价值的地方是把 MLP 作为强基线,而不是只把 Transformer 当作唯一方向。 对我们来说,可能增益是:可为 mlp_codeX 增加模型结构改进路线:档位维 attention、时间维 attention、轻量 MLP baseline、以及模型复杂度与收益增益的可比审计。 周报层面只保留这种机制级结论,真正进入实验前仍需用我们的数据、标签和评估口径重新验证。
特征工程
该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 特征工程关注点是把新数据坐标变成稳定字段:价格层记忆、事件状态、横截面上下文、成交路径和可靠性 gate。每个字段都应说明它是 predictor、context/gate、normalizer 还是评价辅助,避免把所有信息都混成同质特征。
研究启发
对我们研究的直接启发是:适合设计 MLP/GRU/Transformer 的等口径对照:相同输入窗口、相同 label horizon、相同 normalization、相同 backtest contract。 预期增益是:可为 mlp_codeX 增加模型结构改进路线:档位维 attention、时间维 attention、轻量 MLP baseline、以及模型复杂度与收益增益的可比审计。 与高频特征工程的关系是:该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 特征工程关注点是把新数据坐标变成稳定字段:价格层记忆、事件状态、横截面上下文、成交路径和可靠性 gate。每个字段都应说明它是 predictor、context/gate、normalizer 还是评价辅助,避免把所有信息都混成同质特征。
管线落点
优先判断是否能成为 OB 1s exact-axis sidecar;候选 routes: mlp_codeX, llm_factor_pipeline。
可能增益
可为 mlp_codeX 增加模型结构改进路线:档位维 attention、时间维 attention、轻量 MLP baseline、以及模型复杂度与收益增益的可比审计。
IDEA-2026-W25-75704704优先级 高分数 29

LiT:限价订单簿 Transformer,用结构化 patch 捕捉空间与时间依赖

原题:LiT: limit order book transformer
Curated Model and Financial Time-Series Research · 2025-10-01 · candidate 打开来源
数据坐标 / 高频状态模型训练 / 序列预测
LLM 因子生成MLP 时序预测

LiT:限价订单簿 Transformer,用结构化 patch 捕捉空间与时间依赖 的核心价值不只是提供一条新闻或论文标题,而是给我们的高频时序预测研究提供一个可拆解的机制样本。LiT 面向高频 LOB 短期市场运动预测,强调用结构化 patch 和 Transformer 建模订单簿的空间层级和时间依赖。 从周报使用角度看,需要同时阅读其问题背景、可观测数据、建模逻辑、实验结果和对我们现有 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线的迁移方式。

定位
数据坐标 / sidecar 候选
背景
来源为模型与金融时序预测精选,日期 2025-10-01。 它对应的是高频数据坐标的扩展问题:同一条价格或成交序列,在时间钟、成交量钟、事件钟、价格层、队列位置和横截面环境下会呈现不同状态。如果外部研究能提供新的观察坐标,就可能帮助我们摆脱普通滚动均值/标准差的局限,把短周期预测拆成状态识别、信号生成和可靠性判断。
逻辑
系统识别出的研究轴为:数据坐标 / 高频状态, 模型训练 / 序列预测;可能落点为:LLM 因子生成, MLP 时序预测。核心逻辑是改变观察坐标:从同步时钟转向事件时钟,从单股票转向横截面/市场状态,从当前盘口转向路径记忆和价格层状态。如果新坐标能解释某些 horizon 下信号为何增强或失效,它就可以作为 context、gate 或 predictor 的上游。
方法
文本中命中的方法关键词包括:transformer。 如果进入研究库,建议把方法拆成可执行对象:数据输入、变换函数、评估对象和人工 review 标准,方便以后复用。
数据
可观测数据线索包括:limit order book, order book, 订单簿。 映射到我们的项目时,应优先考虑 OB 1s、逐笔成交、逐笔委托、StreamFactors、PriceLevelMemory、CrossSectional/MarketContext 等数据族。重点不是简单多加字段,而是确认每个字段的时间戳、撮合语义、买卖方向、价格层位置和缺失 stock-day 处理方式,使其能稳定成为 sidecar 或模型输入。
结果
已有材料给出的结果/观点是:LiT 面向高频 LOB 短期市场运动预测,强调用结构化 patch 和 Transformer 建模订单簿的空间层级和时间依赖。 对我们来说,可能增益是:可能改善模型对价格层相对位置、bid/ask 不对称、局部盘口形态的吸收,适合作为 MLP 结构升级方向。 周报层面只保留这种机制级结论,真正进入实验前仍需用我们的数据、标签和评估口径重新验证。
特征工程
该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 特征工程关注点是把新数据坐标变成稳定字段:价格层记忆、事件状态、横截面上下文、成交路径和可靠性 gate。每个字段都应说明它是 predictor、context/gate、normalizer 还是评价辅助,避免把所有信息都混成同质特征。
研究启发
对我们研究的直接启发是:可把 10 档盘口、价量层级、买卖两侧、时间窗口拆成结构化 patch,而不是把所有列直接展平给 MLP。 预期增益是:可能改善模型对价格层相对位置、bid/ask 不对称、局部盘口形态的吸收,适合作为 MLP 结构升级方向。 与高频特征工程的关系是:该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 特征工程关注点是把新数据坐标变成稳定字段:价格层记忆、事件状态、横截面上下文、成交路径和可靠性 gate。每个字段都应说明它是 predictor、context/gate、normalizer 还是评价辅助,避免把所有信息都混成同质特征。
管线落点
优先判断是否能成为 OB 1s exact-axis sidecar;候选 routes: llm_factor_pipeline, mlp_codeX。
可能增益
可能改善模型对价格层相对位置、bid/ask 不对称、局部盘口形态的吸收,适合作为 MLP 结构升级方向。
IDEA-2026-W25-9cce7f91优先级 高分数 29

Deep Limit Order Book Forecasting:深度限价订单簿预测与 LOBFrame 基准

原题:Deep Limit Order Book Forecasting
Curated Model and Financial Time-Series Research · 2024-03-14 · candidate 打开来源
数据坐标 / 高频状态模型训练 / 序列预测因子生成 / 表示学习
LLM 因子生成

Deep Limit Order Book Forecasting:深度限价订单簿预测与 LOBFrame 基准 的核心价值不只是提供一条新闻或论文标题,而是给我们的高频时序预测研究提供一个可拆解的机制样本。研究用 LOBFrame 处理大规模限价订单簿数据,并比较深度模型对 NASDAQ 股票中间价变化的预测能力。重要结论是:高预测指标不一定等于可交易信号,传统 ML 指标不足以评价 LOB 预测。 从周报使用角度看,需要同时阅读其问题背景、可观测数据、建模逻辑、实验结果和对我们现有 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线的迁移方式。

定位
数据坐标 / sidecar 候选
背景
来源为模型与金融时序预测精选,日期 2024-03-14。 它对应的是高频数据坐标的扩展问题:同一条价格或成交序列,在时间钟、成交量钟、事件钟、价格层、队列位置和横截面环境下会呈现不同状态。如果外部研究能提供新的观察坐标,就可能帮助我们摆脱普通滚动均值/标准差的局限,把短周期预测拆成状态识别、信号生成和可靠性判断。
逻辑
系统识别出的研究轴为:数据坐标 / 高频状态, 模型训练 / 序列预测, 因子生成 / 表示学习;可能落点为:LLM 因子生成。核心逻辑是改变观察坐标:从同步时钟转向事件时钟,从单股票转向横截面/市场状态,从当前盘口转向路径记忆和价格层状态。如果新坐标能解释某些 horizon 下信号为何增强或失效,它就可以作为 context、gate 或 predictor 的上游。
方法
当前元数据没有给出完整方法细节,需要后续人工精读补足。 如果进入研究库,建议把方法拆成可执行对象:数据输入、变换函数、评估对象和人工 review 标准,方便以后复用。
数据
可观测数据线索包括:limit order book, order book, 订单簿。 映射到我们的项目时,应优先考虑 OB 1s、逐笔成交、逐笔委托、StreamFactors、PriceLevelMemory、CrossSectional/MarketContext 等数据族。重点不是简单多加字段,而是确认每个字段的时间戳、撮合语义、买卖方向、价格层位置和缺失 stock-day 处理方式,使其能稳定成为 sidecar 或模型输入。
结果
已有材料给出的结果/观点是:研究用 LOBFrame 处理大规模限价订单簿数据,并比较深度模型对 NASDAQ 股票中间价变化的预测能力。重要结论是:高预测指标不一定等于可交易信号,传统 ML 指标不足以评价 LOB 预测。 对我们来说,可能增益是:可帮助解释为什么模型离线指标提升不一定转化为收益,并为 MLP/Linear/LGB 对照建立更合理的验证口径。 周报层面只保留这种机制级结论,真正进入实验前仍需用我们的数据、标签和评估口径重新验证。
特征工程
该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 特征工程关注点是把新数据坐标变成稳定字段:价格层记忆、事件状态、横截面上下文、成交路径和可靠性 gate。每个字段都应说明它是 predictor、context/gate、normalizer 还是评价辅助,避免把所有信息都混成同质特征。
研究启发
对我们研究的直接启发是:应把我们的 MLP/GRU/CNN/Transformer 训练评估从单一 IC/分类准确率扩展到交易可执行性、成交概率、预测完整交易方向等 operational metrics。 预期增益是:可帮助解释为什么模型离线指标提升不一定转化为收益,并为 MLP/Linear/LGB 对照建立更合理的验证口径。 与高频特征工程的关系是:该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 特征工程关注点是把新数据坐标变成稳定字段:价格层记忆、事件状态、横截面上下文、成交路径和可靠性 gate。每个字段都应说明它是 predictor、context/gate、normalizer 还是评价辅助,避免把所有信息都混成同质特征。
管线落点
优先判断是否能成为 OB 1s exact-axis sidecar;候选 routes: llm_factor_pipeline。
可能增益
可帮助解释为什么模型离线指标提升不一定转化为收益,并为 MLP/Linear/LGB 对照建立更合理的验证口径。
IDEA-2026-W25-5a2dfd8b优先级 中分数 9

GRU/LSTM/Transformer 金融趋势预测对照:作为轻量序列模型基线

原题:Comparative Analysis of LSTM, GRU, and Transformer Models for Stock Price Trend Prediction
Curated Model and Financial Time-Series Research · 2024-11-08 · candidate 打开来源
模型训练 / 序列预测
MLP 时序预测

GRU/LSTM/Transformer 金融趋势预测对照:作为轻量序列模型基线 的核心价值不只是提供一条新闻或论文标题,而是给我们的高频时序预测研究提供一个可拆解的机制样本。研究比较 LSTM、GRU、Transformer 在金融趋势预测任务中的表现。虽然标的和频率未必贴合我们,但适合作为模型家族对照提醒。 从周报使用角度看,需要同时阅读其问题背景、可观测数据、建模逻辑、实验结果和对我们现有 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线的迁移方式。

定位
模型训练 / 融合候选
背景
来源为模型与金融时序预测精选,日期 2024-11-08。 它对应的是模型训练问题:高频预测信号弱、噪声大、非平稳强,模型结构和训练目标会显著影响能否从 OB/SF/sidecar 特征中提取稳定信息。这类研究对我们最重要的不是追逐复杂模型,而是在同一数据切分、同一 horizon 和同一评估口径下比较 MLP、GRU、TCN、CNN、Transformer、LGB 和 Linear 的增量价值。
逻辑
系统识别出的研究轴为:模型训练 / 序列预测;可能落点为:MLP 时序预测。核心逻辑是让模型结构匹配高频数据的形态:MLP 适合强基线和横截面特征吸收,GRU/LSTM 适合路径记忆,CNN/TCN 适合局部冲击和短窗口形态,Transformer/attention 适合多层盘口和长依赖。方法价值需要落在同口径对照上,而不是只看论文里的模型名称。
方法
文本中命中的方法关键词包括:GRU, LSTM, transformer。 模型类文章需要抽取三层方法信息:输入组织方式、序列编码器、训练/评估目标。输入组织决定 OB/SF 字段是否保留价层和买卖侧结构;编码器决定是否捕捉路径记忆或跨层依赖;训练目标决定是否只追求预测误差,还是同时关注方向、排序、成交可执行性和状态重构。
数据
当前材料没有明确列出数据字段,需要人工确认其数据可观测性。 对模型训练而言,数据关注点是输入张量如何保留微观结构:价量层级、bid/ask 两侧、时间窗口、事件密度、样本权重和股票间共享结构。如果数据被过早展平或粗粒度聚合,模型再复杂也可能只学到弱化后的统计形态。
结果
已有材料给出的结果/观点是:研究比较 LSTM、GRU、Transformer 在金融趋势预测任务中的表现。虽然标的和频率未必贴合我们,但适合作为模型家族对照提醒。 对我们来说,可能增益是:可用于 mlp_codeX 的低成本模型扩展:MLP vs GRU vs TCN vs small Transformer,在相同数据切分和交易评估下比较。 周报层面只保留这种机制级结论,真正进入实验前仍需用我们的数据、标签和评估口径重新验证。
特征工程
该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 模型类研究的特征工程重点是输入表示,而不只是网络结构。可从价层 patch、bid/ask 分支、局部窗口卷积、路径记忆通道、辅助重构目标和多 horizon 标签组织入手,让模型看到更贴近订单簿机制的表示。
研究启发
对我们研究的直接启发是:GRU 是值得加入的轻量路径记忆 baseline:参数量比 Transformer 小,可能比纯 MLP 更能吸收 120 tick 内的状态延续。 预期增益是:可用于 mlp_codeX 的低成本模型扩展:MLP vs GRU vs TCN vs small Transformer,在相同数据切分和交易评估下比较。 与高频特征工程的关系是:该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 模型类研究的特征工程重点是输入表示,而不只是网络结构。可从价层 patch、bid/ask 分支、局部窗口卷积、路径记忆通道、辅助重构目标和多 horizon 标签组织入手,让模型看到更贴近订单簿机制的表示。
管线落点
优先作为 MLP/LGB/Linear 的训练或融合实验,不直接改变因子数据;候选 routes: mlp_codeX。
可能增益
可用于 mlp_codeX 的低成本模型扩展:MLP vs GRU vs TCN vs small Transformer,在相同数据切分和交易评估下比较。
IDEA-2026-W25-9a5092a6优先级 中分数 9

LENS:面向金融时序的预训练基础模型

原题:LENS: Large Pre-trained Transformer for Exploring Financial Time Series
Curated Model and Financial Time-Series Research · 2024-08-19 · candidate 打开来源
模型训练 / 序列预测
MLP 时序预测

LENS:面向金融时序的预训练基础模型 的核心价值不只是提供一条新闻或论文标题,而是给我们的高频时序预测研究提供一个可拆解的机制样本。研究提出面向金融时序的预训练 Transformer,强调金融数据低信噪比、高随机性和大规模预训练框架。 从周报使用角度看,需要同时阅读其问题背景、可观测数据、建模逻辑、实验结果和对我们现有 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线的迁移方式。

定位
模型训练 / 融合候选
背景
来源为模型与金融时序预测精选,日期 2024-08-19。 它对应的是模型训练问题:高频预测信号弱、噪声大、非平稳强,模型结构和训练目标会显著影响能否从 OB/SF/sidecar 特征中提取稳定信息。这类研究对我们最重要的不是追逐复杂模型,而是在同一数据切分、同一 horizon 和同一评估口径下比较 MLP、GRU、TCN、CNN、Transformer、LGB 和 Linear 的增量价值。
逻辑
系统识别出的研究轴为:模型训练 / 序列预测;可能落点为:MLP 时序预测。核心逻辑是让模型结构匹配高频数据的形态:MLP 适合强基线和横截面特征吸收,GRU/LSTM 适合路径记忆,CNN/TCN 适合局部冲击和短窗口形态,Transformer/attention 适合多层盘口和长依赖。方法价值需要落在同口径对照上,而不是只看论文里的模型名称。
方法
文本中命中的方法关键词包括:transformer。 模型类文章需要抽取三层方法信息:输入组织方式、序列编码器、训练/评估目标。输入组织决定 OB/SF 字段是否保留价层和买卖侧结构;编码器决定是否捕捉路径记忆或跨层依赖;训练目标决定是否只追求预测误差,还是同时关注方向、排序、成交可执行性和状态重构。
数据
当前材料没有明确列出数据字段,需要人工确认其数据可观测性。 对模型训练而言,数据关注点是输入张量如何保留微观结构:价量层级、bid/ask 两侧、时间窗口、事件密度、样本权重和股票间共享结构。如果数据被过早展平或粗粒度聚合,模型再复杂也可能只学到弱化后的统计形态。
结果
已有材料给出的结果/观点是:研究提出面向金融时序的预训练 Transformer,强调金融数据低信噪比、高随机性和大规模预训练框架。 对我们来说,可能增益是:潜在增益在于让 MLP/GRU/Transformer 不只依赖监督 label,而先学习盘口状态空间和跨股票共性表示。 周报层面只保留这种机制级结论,真正进入实验前仍需用我们的数据、标签和评估口径重新验证。
特征工程
该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 模型类研究的特征工程重点是输入表示,而不只是网络结构。可从价层 patch、bid/ask 分支、局部窗口卷积、路径记忆通道、辅助重构目标和多 horizon 标签组织入手,让模型看到更贴近订单簿机制的表示。
研究启发
对我们研究的直接启发是:可考虑在我们自己的 OB/SF/sidecar 数据上做自监督预训练,例如 mask reconstruction、next-state prediction、contrastive state matching。 预期增益是:潜在增益在于让 MLP/GRU/Transformer 不只依赖监督 label,而先学习盘口状态空间和跨股票共性表示。 与高频特征工程的关系是:该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 模型类研究的特征工程重点是输入表示,而不只是网络结构。可从价层 patch、bid/ask 分支、局部窗口卷积、路径记忆通道、辅助重构目标和多 horizon 标签组织入手,让模型看到更贴近订单簿机制的表示。
管线落点
优先作为 MLP/LGB/Linear 的训练或融合实验,不直接改变因子数据;候选 routes: mlp_codeX。
可能增益
潜在增益在于让 MLP/GRU/Transformer 不只依赖监督 label,而先学习盘口状态空间和跨股票共性表示。

订单簿表示与逐笔数据

1 条 · 平均分 27.0
IDEA-2026-W25-ed1d1cfb优先级 高分数 27

多层 LOB 的阅读、突出与预测:从预测中间价扩展到预测整本订单簿

原题:Attention-Based Reading, Highlighting, and Forecasting of the Limit Order Book
Curated Model and Financial Time-Series Research · 2024-09-03 · candidate 打开来源
模型训练 / 序列预测数据坐标 / 高频状态
MLP 时序预测LLM 因子生成

多层 LOB 的阅读、突出与预测:从预测中间价扩展到预测整本订单簿 的核心价值不只是提供一条新闻或论文标题,而是给我们的高频时序预测研究提供一个可拆解的机制样本。研究用 seq2seq 模型预测多层 LOB 的价格和数量,而不只预测中间价方向。 从周报使用角度看,需要同时阅读其问题背景、可观测数据、建模逻辑、实验结果和对我们现有 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线的迁移方式。

定位
数据坐标 / sidecar 候选
背景
来源为模型与金融时序预测精选,日期 2024-09-03。 它对应的是高频数据坐标的扩展问题:同一条价格或成交序列,在时间钟、成交量钟、事件钟、价格层、队列位置和横截面环境下会呈现不同状态。如果外部研究能提供新的观察坐标,就可能帮助我们摆脱普通滚动均值/标准差的局限,把短周期预测拆成状态识别、信号生成和可靠性判断。
逻辑
系统识别出的研究轴为:模型训练 / 序列预测, 数据坐标 / 高频状态;可能落点为:MLP 时序预测, LLM 因子生成。核心逻辑是改变观察坐标:从同步时钟转向事件时钟,从单股票转向横截面/市场状态,从当前盘口转向路径记忆和价格层状态。如果新坐标能解释某些 horizon 下信号为何增强或失效,它就可以作为 context、gate 或 predictor 的上游。
方法
文本中命中的方法关键词包括:attention, seq2seq。 如果进入研究库,建议把方法拆成可执行对象:数据输入、变换函数、评估对象和人工 review 标准,方便以后复用。
数据
可观测数据线索包括:limit order book, order book。 映射到我们的项目时,应优先考虑 OB 1s、逐笔成交、逐笔委托、StreamFactors、PriceLevelMemory、CrossSectional/MarketContext 等数据族。重点不是简单多加字段,而是确认每个字段的时间戳、撮合语义、买卖方向、价格层位置和缺失 stock-day 处理方式,使其能稳定成为 sidecar 或模型输入。
结果
已有材料给出的结果/观点是:研究用 seq2seq 模型预测多层 LOB 的价格和数量,而不只预测中间价方向。 对我们来说,可能增益是:可能提升模型对盘口状态演化的理解,辅助短 horizon return label 的弱信号学习。 周报层面只保留这种机制级结论,真正进入实验前仍需用我们的数据、标签和评估口径重新验证。
特征工程
该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 特征工程关注点是把新数据坐标变成稳定字段:价格层记忆、事件状态、横截面上下文、成交路径和可靠性 gate。每个字段都应说明它是 predictor、context/gate、normalizer 还是评价辅助,避免把所有信息都混成同质特征。
研究启发
对我们研究的直接启发是:启发我们把 OB 预测目标扩展为 next-state / book-shape reconstruction,并把 reconstruction loss 作为辅助任务。 预期增益是:可能提升模型对盘口状态演化的理解,辅助短 horizon return label 的弱信号学习。 与高频特征工程的关系是:该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 特征工程关注点是把新数据坐标变成稳定字段:价格层记忆、事件状态、横截面上下文、成交路径和可靠性 gate。每个字段都应说明它是 predictor、context/gate、normalizer 还是评价辅助,避免把所有信息都混成同质特征。
管线落点
优先判断是否能成为 OB 1s exact-axis sidecar;候选 routes: mlp_codeX, llm_factor_pipeline。
可能增益
可能提升模型对盘口状态演化的理解,辅助短 horizon return label 的弱信号学习。

评估审计与风险控制

2 条 · 平均分 16.0
IDEA-2026-W25-fb8e1c23优先级 高分数 23

双分支自监督学习识别市场操纵:融合频域异常合成与领域特征

原题:Detecting market manipulation with dual-branch self-supervised learning: A unified framework integrating frequency-informed anomaly synthesis and domain-specific features
OpenAlex Semantic Works Search · 2026-06-08 · candidate 打开来源
评估审计 / 可比性模型训练 / 序列预测数据坐标 / 高频状态
回测与可比性审计Linear/Ridge baselineLLM 因子生成

双分支自监督学习识别市场操纵:融合频域异常合成与领域特征 的核心价值不只是提供一条新闻或论文标题,而是给我们的高频时序预测研究提供一个可拆解的机制样本。该研究把自监督学习、频域异常构造和领域特征结合,用于识别市场操纵。对高频预测而言,它更适合作为异常状态/可靠性 gate,而不是直接作为收益预测器。 从周报使用角度看,需要同时阅读其问题背景、可观测数据、建模逻辑、实验结果和对我们现有 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线的迁移方式。

定位
评估审计 / 可比性候选
背景
来源为OpenAlex 语义论文检索,日期 2026-06-08。 它更偏评估和研究治理背景。高频模型和因子的离线指标很容易被样本切分、交易成本、异常事件、状态混合或 baseline regime 污染。这类材料的价值在于帮助我们改进实验解释、结果可比性和研究闭环,而不是直接生成一个 predictor。
逻辑
系统识别出的研究轴为:评估审计 / 可比性, 模型训练 / 序列预测, 数据坐标 / 高频状态;可能落点为:回测与可比性审计, Linear/Ridge baseline, LLM 因子生成。核心逻辑是从研究治理角度补足我们的实验链条:将外部观点映射到数据、模型、评价和人工 review 的具体节点,避免材料只停留在阅读归档。
方法
文本中命中的方法关键词包括:self-supervised, contrastive。 如果进入研究库,建议把方法拆成可执行对象:数据输入、变换函数、评估对象和人工 review 标准,方便以后复用。
数据
当前材料没有明确列出数据字段,需要人工确认其数据可观测性。 如果该条目继续推进,需要把外部数据概念翻译成我们本地已有字段或明确的新 sidecar 需求。
结果
已有材料给出的结果/观点是:该研究把自监督学习、频域异常构造和领域特征结合,用于识别市场操纵。对高频预测而言,它更适合作为异常状态/可靠性 gate,而不是直接作为收益预测器。 对我们来说,可能增益是:潜在增益是减少操纵/异常事件对训练和回测结论的污染,提升 tail 风险控制。 周报层面只保留这种机制级结论,真正进入实验前仍需用我们的数据、标签和评估口径重新验证。
特征工程
该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 对 LLM 因子管线而言,高频特征工程可以变成 prompt 约束:优先提出新的观察坐标、字段组合和机制解释,减少重复 rolling-window 变体。LLM 生成的候选特征需要被结构化为字段合同、函数模板、去重标签和人工 review 条目。
研究启发
对我们研究的直接启发是:可把异常成交、盘口异动、价格跳跃和订单流不一致设计成 event/reliability sidecar,过滤或降权异常状态下的预测信号。 预期增益是:潜在增益是减少操纵/异常事件对训练和回测结论的污染,提升 tail 风险控制。 与高频特征工程的关系是:该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 对 LLM 因子管线而言,高频特征工程可以变成 prompt 约束:优先提出新的观察坐标、字段组合和机制解释,减少重复 rolling-window 变体。LLM 生成的候选特征需要被结构化为字段合同、函数模板、去重标签和人工 review 条目。
管线落点
优先进入审计/评估方法库,服务 baseline 可比性和 SFT/BT 可信度;候选 routes: backtest_audit, linear_codeX, llm_factor_pipeline。
可能增益
潜在增益是减少操纵/异常事件对训练和回测结论的污染,提升 tail 风险控制。
IDEA-2026-W25-cd66d4c6优先级 中分数 9

金融科技系统中的自适应风险评估:基于强化学习的连续策略优化

原题:Adaptive Risk Evaluation in FinTech Systems via Reinforcement-Based Continuous Policy Optimization
OpenAlex Semantic Works Search · 2026-06-11 · candidate 打开来源
因子生成 / 表示学习模型训练 / 序列预测
LGB 融合与筛选MLP 时序预测

金融科技系统中的自适应风险评估:基于强化学习的连续策略优化 的核心价值不只是提供一条新闻或论文标题,而是给我们的高频时序预测研究提供一个可拆解的机制样本。该方向强调在动态环境下持续评估风险并调整策略。对我们的启发在于把风险/状态评估作为 gate 或 reliability 层,而不是直接把所有候选因子都当作同质 predictor。 从周报使用角度看,需要同时阅读其问题背景、可观测数据、建模逻辑、实验结果和对我们现有 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线的迁移方式。

定位
模型训练 / 融合候选
背景
来源为OpenAlex 语义论文检索,日期 2026-06-11。 它对应的是模型训练问题:高频预测信号弱、噪声大、非平稳强,模型结构和训练目标会显著影响能否从 OB/SF/sidecar 特征中提取稳定信息。这类研究对我们最重要的不是追逐复杂模型,而是在同一数据切分、同一 horizon 和同一评估口径下比较 MLP、GRU、TCN、CNN、Transformer、LGB 和 Linear 的增量价值。
逻辑
系统识别出的研究轴为:因子生成 / 表示学习, 模型训练 / 序列预测;可能落点为:LGB 融合与筛选, MLP 时序预测。核心逻辑是让模型结构匹配高频数据的形态:MLP 适合强基线和横截面特征吸收,GRU/LSTM 适合路径记忆,CNN/TCN 适合局部冲击和短窗口形态,Transformer/attention 适合多层盘口和长依赖。方法价值需要落在同口径对照上,而不是只看论文里的模型名称。
方法
文本中命中的方法关键词包括:transformer。 模型类文章需要抽取三层方法信息:输入组织方式、序列编码器、训练/评估目标。输入组织决定 OB/SF 字段是否保留价层和买卖侧结构;编码器决定是否捕捉路径记忆或跨层依赖;训练目标决定是否只追求预测误差,还是同时关注方向、排序、成交可执行性和状态重构。
数据
当前材料没有明确列出数据字段,需要人工确认其数据可观测性。 对模型训练而言,数据关注点是输入张量如何保留微观结构:价量层级、bid/ask 两侧、时间窗口、事件密度、样本权重和股票间共享结构。如果数据被过早展平或粗粒度聚合,模型再复杂也可能只学到弱化后的统计形态。
结果
已有材料给出的结果/观点是:该方向强调在动态环境下持续评估风险并调整策略。对我们的启发在于把风险/状态评估作为 gate 或 reliability 层,而不是直接把所有候选因子都当作同质 predictor。 对我们来说,可能增益是:潜在收益不是直接提高 raw IC,而是减少状态不适配时期的尾部损失和 SFT/BT 不稳定。 周报层面只保留这种机制级结论,真正进入实验前仍需用我们的数据、标签和评估口径重新验证。
特征工程
该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 模型类研究的特征工程重点是输入表示,而不只是网络结构。可从价层 patch、bid/ask 分支、局部窗口卷积、路径记忆通道、辅助重构目标和多 horizon 标签组织入手,让模型看到更贴近订单簿机制的表示。
研究启发
对我们研究的直接启发是:可借鉴为高频预测中的动态可信度评分:在流动性、波动、拥挤交易或市场结构变化时调整因子的使用强度。 预期增益是:潜在收益不是直接提高 raw IC,而是减少状态不适配时期的尾部损失和 SFT/BT 不稳定。 与高频特征工程的关系是:该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 模型类研究的特征工程重点是输入表示,而不只是网络结构。可从价层 patch、bid/ask 分支、局部窗口卷积、路径记忆通道、辅助重构目标和多 horizon 标签组织入手,让模型看到更贴近订单簿机制的表示。
管线落点
优先作为 MLP/LGB/Linear 的训练或融合实验,不直接改变因子数据;候选 routes: lgb_codeX, mlp_codeX。
可能增益
潜在收益不是直接提高 raw IC,而是减少状态不适配时期的尾部损失和 SFT/BT 不稳定。

金融时序预测模型

1 条 · 平均分 24.0
IDEA-2026-W25-18fc4205优先级 高分数 24

宏观感知时序预测:层次化混频注意力模型

原题:Macro-aware time series forecasting via hierarchical mixed-frequency attention models
OpenAlex Semantic Works Search · 2026-05-30 · candidate 打开来源
模型训练 / 序列预测因子生成 / 表示学习数据坐标 / 高频状态
MLP 时序预测

宏观感知时序预测:层次化混频注意力模型 的核心价值不只是提供一条新闻或论文标题,而是给我们的高频时序预测研究提供一个可拆解的机制样本。该研究关注不同频率信息如何通过层次注意力进入时序预测。对我们而言,核心不是宏观变量本身,而是多频率上下文进入高频模型的方式。 从周报使用角度看,需要同时阅读其问题背景、可观测数据、建模逻辑、实验结果和对我们现有 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线的迁移方式。

定位
数据坐标 / sidecar 候选
背景
来源为OpenAlex 语义论文检索,日期 2026-05-30。 它对应的是高频数据坐标的扩展问题:同一条价格或成交序列,在时间钟、成交量钟、事件钟、价格层、队列位置和横截面环境下会呈现不同状态。如果外部研究能提供新的观察坐标,就可能帮助我们摆脱普通滚动均值/标准差的局限,把短周期预测拆成状态识别、信号生成和可靠性判断。
逻辑
系统识别出的研究轴为:模型训练 / 序列预测, 因子生成 / 表示学习, 数据坐标 / 高频状态;可能落点为:MLP 时序预测。核心逻辑是改变观察坐标:从同步时钟转向事件时钟,从单股票转向横截面/市场状态,从当前盘口转向路径记忆和价格层状态。如果新坐标能解释某些 horizon 下信号为何增强或失效,它就可以作为 context、gate 或 predictor 的上游。
方法
文本中命中的方法关键词包括:LSTM, attention。 如果进入研究库,建议把方法拆成可执行对象:数据输入、变换函数、评估对象和人工 review 标准,方便以后复用。
数据
当前材料没有明确列出数据字段,需要人工确认其数据可观测性。 映射到我们的项目时,应优先考虑 OB 1s、逐笔成交、逐笔委托、StreamFactors、PriceLevelMemory、CrossSectional/MarketContext 等数据族。重点不是简单多加字段,而是确认每个字段的时间戳、撮合语义、买卖方向、价格层位置和缺失 stock-day 处理方式,使其能稳定成为 sidecar 或模型输入。
结果
已有材料给出的结果/观点是:该研究关注不同频率信息如何通过层次注意力进入时序预测。对我们而言,核心不是宏观变量本身,而是多频率上下文进入高频模型的方式。 对我们来说,可能增益是:可能改善跨频率状态对短 horizon 预测的调制,尤其是市场状态变化和高频信号失效阶段。 周报层面只保留这种机制级结论,真正进入实验前仍需用我们的数据、标签和评估口径重新验证。
特征工程
该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 特征工程关注点是把新数据坐标变成稳定字段:价格层记忆、事件状态、横截面上下文、成交路径和可靠性 gate。每个字段都应说明它是 predictor、context/gate、normalizer 还是评价辅助,避免把所有信息都混成同质特征。
研究启发
对我们研究的直接启发是:可把日内 OB/SF、分钟级市场状态、日级风险环境拆成不同频率上下文,用 gate/context 层而不是简单拼接输入。 预期增益是:可能改善跨频率状态对短 horizon 预测的调制,尤其是市场状态变化和高频信号失效阶段。 与高频特征工程的关系是:该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 特征工程关注点是把新数据坐标变成稳定字段:价格层记忆、事件状态、横截面上下文、成交路径和可靠性 gate。每个字段都应说明它是 predictor、context/gate、normalizer 还是评价辅助,避免把所有信息都混成同质特征。
管线落点
优先判断是否能成为 OB 1s exact-axis sidecar;候选 routes: mlp_codeX。
可能增益
可能改善跨频率状态对短 horizon 预测的调制,尤其是市场状态变化和高频信号失效阶段。

高频数据特征工程

6 条 · 平均分 26.0
IDEA-2026-W25-bc3ab97e优先级 高分数 34

中信建投:市场微观结构系列研究,从分钟频到 Level2 的探索与发现

原题:CSC market microstructure research from minute frequency to Level2
Curated Chinese Broker Microstructure Research · 2025-12-17 · candidate 打开来源
因子生成 / 表示学习高频特征工程数据坐标 / 高频状态
LLM 因子生成高频数据特征工程

中信建投:市场微观结构系列研究,从分钟频到 Level2 的探索与发现 的核心价值不只是提供一条新闻或论文标题,而是给我们的高频时序预测研究提供一个可拆解的机制样本。文章系统整理分钟频高频因子挖掘和 Level2 数据应用经验,强调市场微观结构变化会影响历史统计规律一致性,并用成交量、大单买入笔数、主动买卖金额等指标对解释高频 Alpha。 从周报使用角度看,需要同时阅读其问题背景、可观测数据、建模逻辑、实验结果和对我们现有 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线的迁移方式。

定位
高频数据特征工程候选
背景
来源为中文券商高频与市场微观结构精选,日期 2025-12-17。 它进入周报的背景是:我们当前做的是短 horizon 高频时序预测,原始 OB、逐笔成交、StreamFactors 和 sidecar 数据里有大量可观测但未必被充分表达的交易行为。单纯把价量列展平给模型,容易让 MLP/LGB/Linear 学到噪声、重复 rolling 统计或状态混合后的弱信号;特征工程的价值在于把盘口压力、主动成交、队列消耗、价格层记忆、事件时间节奏等机制先结构化,再交给模型或 LLM 因子管线使用。
逻辑
系统识别出的研究轴为:因子生成 / 表示学习, 高频特征工程, 数据坐标 / 高频状态;可能落点为:LLM 因子生成, 高频数据特征工程。核心逻辑是先把市场微观行为拆成可解释的中间变量,再让监督模型或 LLM 因子生成器使用这些变量。例如,订单不平衡描述当前买卖压力,队列/深度变化描述被动流动性供给,主动买卖和大单拆分描述交易者意图,价格层记忆描述盘口压力是否持续。这种逻辑比直接增加窗口统计更接近交易机制,也更容易形成可审计的 sidecar 字段。
方法
文本中命中的方法关键词包括:主动买卖。 对我们而言,方法应被改写成可批量计算的特征模板:先定义字段、时间轴和聚合粒度,再定义变换方式,例如方向拆分、价层分桶、成交主动性识别、队列变化、状态交互和稳定性去重。生成后的特征不应直接混入生产 baseline,而应先作为 sidecar 或 candidate pool 被 MLP/LGB/Linear 和 LLM 因子管线共同消费。
数据
可观测数据线索包括:Level2, 成交, 主动买卖, 大单。 映射到我们的项目时,应优先考虑 OB 1s、逐笔成交、逐笔委托、StreamFactors、PriceLevelMemory、CrossSectional/MarketContext 等数据族。重点不是简单多加字段,而是确认每个字段的时间戳、撮合语义、买卖方向、价格层位置和缺失 stock-day 处理方式,使其能稳定成为 sidecar 或模型输入。
结果
已有材料给出的结果/观点是:文章系统整理分钟频高频因子挖掘和 Level2 数据应用经验,强调市场微观结构变化会影响历史统计规律一致性,并用成交量、大单买入笔数、主动买卖金额等指标对解释高频 Alpha。 对我们来说,预期增益是:可能为 LLM 因子生成提供中文机制模板,也能帮助 MLP/LGB 侧构造更可解释的 order-flow interaction 特征。 这里的结果不应被理解为可直接复制的收益结论,而应被理解为特征设计方向的证据:哪些微观行为被证明有信息含量,哪些表示方式可能比普通价量 rolling 更接近交易机制。
特征工程
命中的高频特征工程线索:主动买, 主动买卖, 大单。 建议把启发拆成四类候选特征:第一,订单流方向与强度,例如主动买卖、signed volume、订单不平衡和大单拆分;第二,盘口形态与价格层,例如 spread、depth slope、microprice、价层压力和队列不平衡;第三,路径记忆与事件时间,例如挂单方向自相关、成交时长、撤单节奏、volume clock 和 tick clock;第四,状态交互,例如流动性状态下的反转/延续、横截面拥挤度下的信号可靠性。这些特征应优先以 sidecar/feature pool 方式落地,既能给 LGB/Linear 做可解释吸收,也能给 MLP/GRU/Transformer 提供结构化输入,并给 LLM 因子生成提供字段合同。
研究启发
对我们研究的直接启发是:与我们的 OB/SF 预测最契合:可把 Level2 指标对、主动买卖同步性、大单交易行为、分钟频到秒级的状态迁移纳入 sidecar taxonomy。 预期增益是:可能为 LLM 因子生成提供中文机制模板,也能帮助 MLP/LGB 侧构造更可解释的 order-flow interaction 特征。 更具体地说,它应该进入“高频数据特征工程”待办池,而不是只作为文章摘要保存。后续周报可以围绕它追踪相邻论文、券商金工报告、代码实现和我们已有实验中的失败/成功模式,逐步形成可复用的特征 taxonomy。
管线落点
优先进入高频 feature pool / sidecar taxonomy,同时服务 LGB/Linear/MLP 和 LLM factor prompt;候选 routes: llm_factor_pipeline, hft_feature_engineering。
可能增益
可能为 LLM 因子生成提供中文机制模板,也能帮助 MLP/LGB 侧构造更可解释的 order-flow interaction 特征。
IDEA-2026-W25-3f512fff优先级 高分数 29

国信证券:高频订单成交数据蕴含的 Alpha 信息

原题:Guosen Securities alpha information in high-frequency order transaction data
Curated Chinese Broker Microstructure Research · 2024-01-08 · candidate 打开来源
因子生成 / 表示学习高频特征工程数据坐标 / 高频状态
高频数据特征工程LLM 因子生成数据 sidecar / 高频衍生数据

国信证券:高频订单成交数据蕴含的 Alpha 信息 的核心价值不只是提供一条新闻或论文标题,而是给我们的高频时序预测研究提供一个可拆解的机制样本。报告围绕逐笔成交数据,从订单大小、成交时长、成交时间、出价高低等维度构造因子,并提出大单交易占比、漫长订单交易占比以及复合因子框架。 从周报使用角度看,需要同时阅读其问题背景、可观测数据、建模逻辑、实验结果和对我们现有 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线的迁移方式。

定位
高频数据特征工程候选
背景
来源为中文券商高频与市场微观结构精选,日期 2024-01-08。 它进入周报的背景是:我们当前做的是短 horizon 高频时序预测,原始 OB、逐笔成交、StreamFactors 和 sidecar 数据里有大量可观测但未必被充分表达的交易行为。单纯把价量列展平给模型,容易让 MLP/LGB/Linear 学到噪声、重复 rolling 统计或状态混合后的弱信号;特征工程的价值在于把盘口压力、主动成交、队列消耗、价格层记忆、事件时间节奏等机制先结构化,再交给模型或 LLM 因子管线使用。
逻辑
系统识别出的研究轴为:因子生成 / 表示学习, 高频特征工程, 数据坐标 / 高频状态;可能落点为:高频数据特征工程, LLM 因子生成, 数据 sidecar / 高频衍生数据。核心逻辑是先把市场微观行为拆成可解释的中间变量,再让监督模型或 LLM 因子生成器使用这些变量。例如,订单不平衡描述当前买卖压力,队列/深度变化描述被动流动性供给,主动买卖和大单拆分描述交易者意图,价格层记忆描述盘口压力是否持续。这种逻辑比直接增加窗口统计更接近交易机制,也更容易形成可审计的 sidecar 字段。
方法
文本中命中的方法关键词包括:逐笔。 对我们而言,方法应被改写成可批量计算的特征模板:先定义字段、时间轴和聚合粒度,再定义变换方式,例如方向拆分、价层分桶、成交主动性识别、队列变化、状态交互和稳定性去重。生成后的特征不应直接混入生产 baseline,而应先作为 sidecar 或 candidate pool 被 MLP/LGB/Linear 和 LLM 因子管线共同消费。
数据
可观测数据线索包括:逐笔, 成交, 大单。 映射到我们的项目时,应优先考虑 OB 1s、逐笔成交、逐笔委托、StreamFactors、PriceLevelMemory、CrossSectional/MarketContext 等数据族。重点不是简单多加字段,而是确认每个字段的时间戳、撮合语义、买卖方向、价格层位置和缺失 stock-day 处理方式,使其能稳定成为 sidecar 或模型输入。
结果
已有材料给出的结果/观点是:报告围绕逐笔成交数据,从订单大小、成交时长、成交时间、出价高低等维度构造因子,并提出大单交易占比、漫长订单交易占比以及复合因子框架。 对我们来说,预期增益是:可能提供比普通成交量 rolling 更细的行为分解,帮助识别拆单、被动吸收、流动性消耗和延迟成交状态。 这里的结果不应被理解为可直接复制的收益结论,而应被理解为特征设计方向的证据:哪些微观行为被证明有信息含量,哪些表示方式可能比普通价量 rolling 更接近交易机制。
特征工程
命中的高频特征工程线索:大单, 成交时长。 建议把启发拆成四类候选特征:第一,订单流方向与强度,例如主动买卖、signed volume、订单不平衡和大单拆分;第二,盘口形态与价格层,例如 spread、depth slope、microprice、价层压力和队列不平衡;第三,路径记忆与事件时间,例如挂单方向自相关、成交时长、撤单节奏、volume clock 和 tick clock;第四,状态交互,例如流动性状态下的反转/延续、横截面拥挤度下的信号可靠性。这些特征应优先以 sidecar/feature pool 方式落地,既能给 LGB/Linear 做可解释吸收,也能给 MLP/GRU/Transformer 提供结构化输入,并给 LLM 因子生成提供字段合同。
研究启发
对我们研究的直接启发是:可直接映射到我们的 Stream/OB 数据:订单大小、成交耗时、早尾盘属性、高低价属性可以成为可审计的 sidecar 字段或 LLM 因子模板。 预期增益是:可能提供比普通成交量 rolling 更细的行为分解,帮助识别拆单、被动吸收、流动性消耗和延迟成交状态。 更具体地说,它应该进入“高频数据特征工程”待办池,而不是只作为文章摘要保存。后续周报可以围绕它追踪相邻论文、券商金工报告、代码实现和我们已有实验中的失败/成功模式,逐步形成可复用的特征 taxonomy。
管线落点
优先进入高频 feature pool / sidecar taxonomy,同时服务 LGB/Linear/MLP 和 LLM factor prompt;候选 routes: hft_feature_engineering, llm_factor_pipeline, data_processing_sidecar。
可能增益
可能提供比普通成交量 rolling 更细的行为分解,帮助识别拆单、被动吸收、流动性消耗和延迟成交状态。
IDEA-2026-W25-759776b6优先级 高分数 29

开源证券订单流系列:挂单方向长期记忆性的讨论与应用

原题:KYSEC order flow long memory of order submission direction
Curated Chinese Broker Microstructure Research · 2024-06-09 · candidate 打开来源
数据坐标 / 高频状态高频特征工程
数据 sidecar / 高频衍生数据高频数据特征工程LLM 因子生成

开源证券订单流系列:挂单方向长期记忆性的讨论与应用 的核心价值不只是提供一条新闻或论文标题,而是给我们的高频时序预测研究提供一个可拆解的机制样本。报告利用逐笔委托数据研究挂单方向是否存在长期记忆,讨论订单方向自相关、拆单行为以及靠近盘口和远离盘口委托之间的差异。 从周报使用角度看,需要同时阅读其问题背景、可观测数据、建模逻辑、实验结果和对我们现有 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线的迁移方式。

定位
高频数据特征工程候选
背景
来源为中文券商高频与市场微观结构精选,日期 2024-06-09。 它进入周报的背景是:我们当前做的是短 horizon 高频时序预测,原始 OB、逐笔成交、StreamFactors 和 sidecar 数据里有大量可观测但未必被充分表达的交易行为。单纯把价量列展平给模型,容易让 MLP/LGB/Linear 学到噪声、重复 rolling 统计或状态混合后的弱信号;特征工程的价值在于把盘口压力、主动成交、队列消耗、价格层记忆、事件时间节奏等机制先结构化,再交给模型或 LLM 因子管线使用。
逻辑
系统识别出的研究轴为:数据坐标 / 高频状态, 高频特征工程;可能落点为:数据 sidecar / 高频衍生数据, 高频数据特征工程, LLM 因子生成。核心逻辑是先把市场微观行为拆成可解释的中间变量,再让监督模型或 LLM 因子生成器使用这些变量。例如,订单不平衡描述当前买卖压力,队列/深度变化描述被动流动性供给,主动买卖和大单拆分描述交易者意图,价格层记忆描述盘口压力是否持续。这种逻辑比直接增加窗口统计更接近交易机制,也更容易形成可审计的 sidecar 字段。
方法
文本中命中的方法关键词包括:逐笔, 挂单方向。 对我们而言,方法应被改写成可批量计算的特征模板:先定义字段、时间轴和聚合粒度,再定义变换方式,例如方向拆分、价层分桶、成交主动性识别、队列变化、状态交互和稳定性去重。生成后的特征不应直接混入生产 baseline,而应先作为 sidecar 或 candidate pool 被 MLP/LGB/Linear 和 LLM 因子管线共同消费。
数据
可观测数据线索包括:order flow, 逐笔, 委托, 盘口, 挂单。 映射到我们的项目时,应优先考虑 OB 1s、逐笔成交、逐笔委托、StreamFactors、PriceLevelMemory、CrossSectional/MarketContext 等数据族。重点不是简单多加字段,而是确认每个字段的时间戳、撮合语义、买卖方向、价格层位置和缺失 stock-day 处理方式,使其能稳定成为 sidecar 或模型输入。
结果
已有材料给出的结果/观点是:报告利用逐笔委托数据研究挂单方向是否存在长期记忆,讨论订单方向自相关、拆单行为以及靠近盘口和远离盘口委托之间的差异。 对我们来说,预期增益是:可能为当前 PLM、jump decay、path memory 提供中文实证机制,帮助 LLM 生成更贴近订单行为而非普通 rolling 的候选因子。 这里的结果不应被理解为可直接复制的收益结论,而应被理解为特征设计方向的证据:哪些微观行为被证明有信息含量,哪些表示方式可能比普通价量 rolling 更接近交易机制。
特征工程
命中的高频特征工程线索:拆单, 挂单方向。 建议把启发拆成四类候选特征:第一,订单流方向与强度,例如主动买卖、signed volume、订单不平衡和大单拆分;第二,盘口形态与价格层,例如 spread、depth slope、microprice、价层压力和队列不平衡;第三,路径记忆与事件时间,例如挂单方向自相关、成交时长、撤单节奏、volume clock 和 tick clock;第四,状态交互,例如流动性状态下的反转/延续、横截面拥挤度下的信号可靠性。这些特征应优先以 sidecar/feature pool 方式落地,既能给 LGB/Linear 做可解释吸收,也能给 MLP/GRU/Transformer 提供结构化输入,并给 LLM 因子生成提供字段合同。
研究启发
对我们研究的直接启发是:非常适合转化为 PriceLevelMemory / PathMemory 类 sidecar:不仅看当前盘口,还看历史挂单方向在不同价格层的延续性和衰减方式。 预期增益是:可能为当前 PLM、jump decay、path memory 提供中文实证机制,帮助 LLM 生成更贴近订单行为而非普通 rolling 的候选因子。 更具体地说,它应该进入“高频数据特征工程”待办池,而不是只作为文章摘要保存。后续周报可以围绕它追踪相邻论文、券商金工报告、代码实现和我们已有实验中的失败/成功模式,逐步形成可复用的特征 taxonomy。
管线落点
优先进入高频 feature pool / sidecar taxonomy,同时服务 LGB/Linear/MLP 和 LLM factor prompt;候选 routes: data_processing_sidecar, hft_feature_engineering, llm_factor_pipeline。
可能增益
可能为当前 PLM、jump decay、path memory 提供中文实证机制,帮助 LLM 生成更贴近订单行为而非普通 rolling 的候选因子。
IDEA-2026-W25-39e21387优先级 高分数 28

开源证券:市场微观结构观察与2023年以来的高频因子回顾

原题:KYSEC market microstructure observation and high-frequency factor review since 2023
Curated Chinese Broker Microstructure Research · 2025-08-06 · candidate 打开来源
因子生成 / 表示学习数据坐标 / 高频状态
LLM 因子生成

开源证券:市场微观结构观察与2023年以来的高频因子回顾 的核心价值不只是提供一条新闻或论文标题,而是给我们的高频时序预测研究提供一个可拆解的机制样本。报告从早盘交易集中度、单笔委托金额、订单簿筹码充足率、程序化交易比例等角度观察 A 股微观交易特征,并回顾 2023 年以来高维记忆、强反转、彩票委托等高频因子的表现。 从周报使用角度看,需要同时阅读其问题背景、可观测数据、建模逻辑、实验结果和对我们现有 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线的迁移方式。

定位
数据坐标 / sidecar 候选
背景
来源为中文券商高频与市场微观结构精选,日期 2025-08-06。 它对应的是高频数据坐标的扩展问题:同一条价格或成交序列,在时间钟、成交量钟、事件钟、价格层、队列位置和横截面环境下会呈现不同状态。如果外部研究能提供新的观察坐标,就可能帮助我们摆脱普通滚动均值/标准差的局限,把短周期预测拆成状态识别、信号生成和可靠性判断。
逻辑
系统识别出的研究轴为:因子生成 / 表示学习, 数据坐标 / 高频状态;可能落点为:LLM 因子生成。核心逻辑是改变观察坐标:从同步时钟转向事件时钟,从单股票转向横截面/市场状态,从当前盘口转向路径记忆和价格层状态。如果新坐标能解释某些 horizon 下信号为何增强或失效,它就可以作为 context、gate 或 predictor 的上游。
方法
当前元数据没有给出完整方法细节,需要后续人工精读补足。 如果进入研究库,建议把方法拆成可执行对象:数据输入、变换函数、评估对象和人工 review 标准,方便以后复用。
数据
可观测数据线索包括:委托, 订单簿。 映射到我们的项目时,应优先考虑 OB 1s、逐笔成交、逐笔委托、StreamFactors、PriceLevelMemory、CrossSectional/MarketContext 等数据族。重点不是简单多加字段,而是确认每个字段的时间戳、撮合语义、买卖方向、价格层位置和缺失 stock-day 处理方式,使其能稳定成为 sidecar 或模型输入。
结果
已有材料给出的结果/观点是:报告从早盘交易集中度、单笔委托金额、订单簿筹码充足率、程序化交易比例等角度观察 A 股微观交易特征,并回顾 2023 年以来高维记忆、强反转、彩票委托等高频因子的表现。 对我们来说,可能增益是:可能提升因子在不同市场阶段的稳定性,尤其是识别放量、拥挤、流动性改善或高频策略容量变化时的 regime shift。 周报层面只保留这种机制级结论,真正进入实验前仍需用我们的数据、标签和评估口径重新验证。
特征工程
该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 特征工程关注点是把新数据坐标变成稳定字段:价格层记忆、事件状态、横截面上下文、成交路径和可靠性 gate。每个字段都应说明它是 predictor、context/gate、normalizer 还是评价辅助,避免把所有信息都混成同质特征。
研究启发
对我们研究的直接启发是:适合转化为 market-state/context sidecar:把市场活跃度、订单簿厚度、冲击成本、撤单率、程序化交易比例作为状态条件,而不是只做单股票 rolling 量价特征。 预期增益是:可能提升因子在不同市场阶段的稳定性,尤其是识别放量、拥挤、流动性改善或高频策略容量变化时的 regime shift。 与高频特征工程的关系是:该条目没有显式命中特征工程关键词,但仍可从数据、模型或因子角度提取可工程化的表达。 特征工程关注点是把新数据坐标变成稳定字段:价格层记忆、事件状态、横截面上下文、成交路径和可靠性 gate。每个字段都应说明它是 predictor、context/gate、normalizer 还是评价辅助,避免把所有信息都混成同质特征。
管线落点
优先判断是否能成为 OB 1s exact-axis sidecar;候选 routes: llm_factor_pipeline。
可能增益
可能提升因子在不同市场阶段的稳定性,尤其是识别放量、拥挤、流动性改善或高频策略容量变化时的 regime shift。
IDEA-2026-W25-874bfa0c优先级 高分数 27

国信金工:基于主动买卖特征的高频订单因子改进

原题:Guosen Securities high-frequency order factor improvement via active buy-sell features
Curated Chinese Broker Microstructure Research · 2024-08-20 · candidate 打开来源
高频特征工程数据坐标 / 高频状态因子生成 / 表示学习
高频数据特征工程数据 sidecar / 高频衍生数据LLM 因子生成

国信金工:基于主动买卖特征的高频订单因子改进 的核心价值不只是提供一条新闻或论文标题,而是给我们的高频时序预测研究提供一个可拆解的机制样本。文章聚焦逐笔成交中的主动买卖方向识别,比较基于委托时间和基于成交价格的划分方法,讨论不同主动成交方向对未来收益的差异。 从周报使用角度看,需要同时阅读其问题背景、可观测数据、建模逻辑、实验结果和对我们现有 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线的迁移方式。

定位
高频数据特征工程候选
背景
来源为中文券商高频与市场微观结构精选,日期 2024-08-20。 它进入周报的背景是:我们当前做的是短 horizon 高频时序预测,原始 OB、逐笔成交、StreamFactors 和 sidecar 数据里有大量可观测但未必被充分表达的交易行为。单纯把价量列展平给模型,容易让 MLP/LGB/Linear 学到噪声、重复 rolling 统计或状态混合后的弱信号;特征工程的价值在于把盘口压力、主动成交、队列消耗、价格层记忆、事件时间节奏等机制先结构化,再交给模型或 LLM 因子管线使用。
逻辑
系统识别出的研究轴为:高频特征工程, 数据坐标 / 高频状态, 因子生成 / 表示学习;可能落点为:高频数据特征工程, 数据 sidecar / 高频衍生数据, LLM 因子生成。核心逻辑是先把市场微观行为拆成可解释的中间变量,再让监督模型或 LLM 因子生成器使用这些变量。例如,订单不平衡描述当前买卖压力,队列/深度变化描述被动流动性供给,主动买卖和大单拆分描述交易者意图,价格层记忆描述盘口压力是否持续。这种逻辑比直接增加窗口统计更接近交易机制,也更容易形成可审计的 sidecar 字段。
方法
文本中命中的方法关键词包括:主动买卖, 逐笔。 对我们而言,方法应被改写成可批量计算的特征模板:先定义字段、时间轴和聚合粒度,再定义变换方式,例如方向拆分、价层分桶、成交主动性识别、队列变化、状态交互和稳定性去重。生成后的特征不应直接混入生产 baseline,而应先作为 sidecar 或 candidate pool 被 MLP/LGB/Linear 和 LLM 因子管线共同消费。
数据
可观测数据线索包括:逐笔, 成交, 委托, 主动买卖。 映射到我们的项目时,应优先考虑 OB 1s、逐笔成交、逐笔委托、StreamFactors、PriceLevelMemory、CrossSectional/MarketContext 等数据族。重点不是简单多加字段,而是确认每个字段的时间戳、撮合语义、买卖方向、价格层位置和缺失 stock-day 处理方式,使其能稳定成为 sidecar 或模型输入。
结果
已有材料给出的结果/观点是:文章聚焦逐笔成交中的主动买卖方向识别,比较基于委托时间和基于成交价格的划分方法,讨论不同主动成交方向对未来收益的差异。 对我们来说,预期增益是:潜在增益在于把 trade flow 从简单量价序列拆成主动/被动、方向/强度、方法置信度三层,提高短 horizon 预测解释性。 这里的结果不应被理解为可直接复制的收益结论,而应被理解为特征设计方向的证据:哪些微观行为被证明有信息含量,哪些表示方式可能比普通价量 rolling 更接近交易机制。
特征工程
命中的高频特征工程线索:active buy, 主动买, 主动买卖。 建议把启发拆成四类候选特征:第一,订单流方向与强度,例如主动买卖、signed volume、订单不平衡和大单拆分;第二,盘口形态与价格层,例如 spread、depth slope、microprice、价层压力和队列不平衡;第三,路径记忆与事件时间,例如挂单方向自相关、成交时长、撤单节奏、volume clock 和 tick clock;第四,状态交互,例如流动性状态下的反转/延续、横截面拥挤度下的信号可靠性。这些特征应优先以 sidecar/feature pool 方式落地,既能给 LGB/Linear 做可解释吸收,也能给 MLP/GRU/Transformer 提供结构化输入,并给 LLM 因子生成提供字段合同。
研究启发
对我们研究的直接启发是:适合给我们的成交流加入主动方向、主动强度和方向可靠度字段,并对不同识别方法做一致性 gate。 预期增益是:潜在增益在于把 trade flow 从简单量价序列拆成主动/被动、方向/强度、方法置信度三层,提高短 horizon 预测解释性。 更具体地说,它应该进入“高频数据特征工程”待办池,而不是只作为文章摘要保存。后续周报可以围绕它追踪相邻论文、券商金工报告、代码实现和我们已有实验中的失败/成功模式,逐步形成可复用的特征 taxonomy。
管线落点
优先进入高频 feature pool / sidecar taxonomy,同时服务 LGB/Linear/MLP 和 LLM factor prompt;候选 routes: hft_feature_engineering, data_processing_sidecar, llm_factor_pipeline。
可能增益
潜在增益在于把 trade flow 从简单量价序列拆成主动/被动、方向/强度、方法置信度三层,提高短 horizon 预测解释性。
IDEA-2026-W25-756b0787优先级 中分数 9

待人工翻译:High-Quality Synthetic Financial Time-Series using a GAN-Diffusion Framework

原题:High-Quality Synthetic Financial Time-Series using a GAN-Diffusion Framework
OpenAlex Semantic Works Search · 2026-05-26 · candidate 打开来源
高频特征工程模型训练 / 序列预测
MLP 时序预测

待人工翻译:High-Quality Synthetic Financial Time-Series using a GAN-Diffusion Framework 的核心价值不只是提供一条新闻或论文标题,而是给我们的高频时序预测研究提供一个可拆解的机制样本。英文来源尚未人工精读,本页只保留元数据;进入实验前需要补充中文机制摘要。 从周报使用角度看,需要同时阅读其问题背景、可观测数据、建模逻辑、实验结果和对我们现有 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线的迁移方式。

定位
高频数据特征工程候选
背景
来源为OpenAlex 语义论文检索,日期 2026-05-26。 它进入周报的背景是:我们当前做的是短 horizon 高频时序预测,原始 OB、逐笔成交、StreamFactors 和 sidecar 数据里有大量可观测但未必被充分表达的交易行为。单纯把价量列展平给模型,容易让 MLP/LGB/Linear 学到噪声、重复 rolling 统计或状态混合后的弱信号;特征工程的价值在于把盘口压力、主动成交、队列消耗、价格层记忆、事件时间节奏等机制先结构化,再交给模型或 LLM 因子管线使用。
逻辑
系统识别出的研究轴为:高频特征工程, 模型训练 / 序列预测;可能落点为:MLP 时序预测。核心逻辑是先把市场微观行为拆成可解释的中间变量,再让监督模型或 LLM 因子生成器使用这些变量。例如,订单不平衡描述当前买卖压力,队列/深度变化描述被动流动性供给,主动买卖和大单拆分描述交易者意图,价格层记忆描述盘口压力是否持续。这种逻辑比直接增加窗口统计更接近交易机制,也更容易形成可审计的 sidecar 字段。
方法
当前元数据没有给出完整方法细节,需要后续人工精读补足。 对我们而言,方法应被改写成可批量计算的特征模板:先定义字段、时间轴和聚合粒度,再定义变换方式,例如方向拆分、价层分桶、成交主动性识别、队列变化、状态交互和稳定性去重。生成后的特征不应直接混入生产 baseline,而应先作为 sidecar 或 candidate pool 被 MLP/LGB/Linear 和 LLM 因子管线共同消费。
数据
当前材料没有明确列出数据字段,需要人工确认其数据可观测性。 映射到我们的项目时,应优先考虑 OB 1s、逐笔成交、逐笔委托、StreamFactors、PriceLevelMemory、CrossSectional/MarketContext 等数据族。重点不是简单多加字段,而是确认每个字段的时间戳、撮合语义、买卖方向、价格层位置和缺失 stock-day 处理方式,使其能稳定成为 sidecar 或模型输入。
结果
当前采集材料还没有形成可靠的精读结论,因此不能把论文声称直接当成我们项目的结果。本周只把它作为候选机制或方法线索保留;后续如果进入研究池,需要补充论文数据集、对照基线、评价指标和主要发现。
特征工程
命中的高频特征工程线索:volume time。 建议把启发拆成四类候选特征:第一,订单流方向与强度,例如主动买卖、signed volume、订单不平衡和大单拆分;第二,盘口形态与价格层,例如 spread、depth slope、microprice、价层压力和队列不平衡;第三,路径记忆与事件时间,例如挂单方向自相关、成交时长、撤单节奏、volume clock 和 tick clock;第四,状态交互,例如流动性状态下的反转/延续、横截面拥挤度下的信号可靠性。这些特征应优先以 sidecar/feature pool 方式落地,既能给 LGB/Linear 做可解释吸收,也能给 MLP/GRU/Transformer 提供结构化输入,并给 LLM 因子生成提供字段合同。
研究启发
对我们研究的直接启发是:启发重点是把逐笔成交、逐笔委托、订单簿价层和市场状态转成可复用的特征工程模板,优先寻找新的观察坐标,而不是继续堆叠普通 rolling-window 统计。 预期增益是:潜在增益在于提升特征池的信息密度和可解释性,让 LGB/Linear/MLP/LLM 因子管线都能共享同一套高频行为表达。 更具体地说,它应该进入“高频数据特征工程”待办池,而不是只作为文章摘要保存。后续周报可以围绕它追踪相邻论文、券商金工报告、代码实现和我们已有实验中的失败/成功模式,逐步形成可复用的特征 taxonomy。
管线落点
优先进入高频 feature pool / sidecar taxonomy,同时服务 LGB/Linear/MLP 和 LLM factor prompt;候选 routes: mlp_codeX。
可能增益
潜在增益在于提升特征池的信息密度和可解释性,让 LGB/Linear/MLP/LLM 因子管线都能共享同一套高频行为表达。

高分来源条目

#分数标题日期研究轴管线落点
134中信建投:市场微观结构系列研究,从分钟频到 Level2 的探索与发现
Curated Chinese Broker Microstructure Research
2025-12-17因子生成 / 表示学习, 高频特征工程, 数据坐标 / 高频状态LLM 因子生成, 高频数据特征工程
232TLOB / MLPLOB:基于 LOB 数据的 MLP 与双注意力 Transformer 趋势预测
Curated Model and Financial Time-Series Research
2025-02-21模型训练 / 序列预测, 数据坐标 / 高频状态, 评估审计 / 可比性MLP 时序预测, LLM 因子生成
329国信证券:高频订单成交数据蕴含的 Alpha 信息
Curated Chinese Broker Microstructure Research
2024-01-08因子生成 / 表示学习, 高频特征工程, 数据坐标 / 高频状态高频数据特征工程, LLM 因子生成, 数据 sidecar / 高频衍生数据
429Deep Limit Order Book Forecasting:深度限价订单簿预测与 LOBFrame 基准
Curated Model and Financial Time-Series Research
2024-03-14数据坐标 / 高频状态, 模型训练 / 序列预测, 因子生成 / 表示学习LLM 因子生成
529开源证券订单流系列:挂单方向长期记忆性的讨论与应用
Curated Chinese Broker Microstructure Research
2024-06-09数据坐标 / 高频状态, 高频特征工程数据 sidecar / 高频衍生数据, 高频数据特征工程, LLM 因子生成
629LiT:限价订单簿 Transformer,用结构化 patch 捕捉空间与时间依赖
Curated Model and Financial Time-Series Research
2025-10-01数据坐标 / 高频状态, 模型训练 / 序列预测LLM 因子生成, MLP 时序预测
728开源证券:市场微观结构观察与2023年以来的高频因子回顾
Curated Chinese Broker Microstructure Research
2025-08-06因子生成 / 表示学习, 数据坐标 / 高频状态LLM 因子生成
827国信金工:基于主动买卖特征的高频订单因子改进
Curated Chinese Broker Microstructure Research
2024-08-20高频特征工程, 数据坐标 / 高频状态, 因子生成 / 表示学习高频数据特征工程, 数据 sidecar / 高频衍生数据, LLM 因子生成
927多层 LOB 的阅读、突出与预测:从预测中间价扩展到预测整本订单簿
Curated Model and Financial Time-Series Research
2024-09-03模型训练 / 序列预测, 数据坐标 / 高频状态MLP 时序预测, LLM 因子生成
1024宏观感知时序预测:层次化混频注意力模型
OpenAlex Semantic Works Search
2026-05-30模型训练 / 序列预测, 因子生成 / 表示学习, 数据坐标 / 高频状态MLP 时序预测
1123双分支自监督学习识别市场操纵:融合频域异常合成与领域特征
OpenAlex Semantic Works Search
2026-06-08评估审计 / 可比性, 模型训练 / 序列预测, 数据坐标 / 高频状态回测与可比性审计, Linear/Ridge baseline, LLM 因子生成
1221回测反馈驱动的因子生成链:把候选、优化和评估串成闭环
Curated AI Factor Generation and Backtest Method Research
2025-08-01因子生成 / 表示学习, 评估审计 / 可比性LLM 因子生成, 回测与可比性审计
1320LLM + 进化优化的稳健特征工程:从手工因子到自动特征发现
Curated AI Factor Generation and Backtest Method Research
2025-01-01因子生成 / 表示学习, 高频特征工程LLM 因子生成, 高频数据特征工程
1420FactorMAD:基于 LLM 多智能体辩论的可解释 Alpha 挖掘
Curated AI Factor Generation and Backtest Method Research
2025-11-01因子生成 / 表示学习LLM 因子生成
1519AlphaAgent:带正则化探索的 LLM Alpha 挖掘
Curated AI Factor Generation and Backtest Method Research
2025-02-24因子生成 / 表示学习LLM 因子生成
1619进化式 LLM Alpha 因子发现:用反馈循环迭代优化因子池
Curated AI Factor Generation and Backtest Method Research
2025-11-01因子生成 / 表示学习LLM 因子生成
1717LLM 自动策略发现:风险感知多智能体生成可执行 Alpha 因子
Curated AI Factor Generation and Backtest Method Research
2025-11-01因子生成 / 表示学习, 评估审计 / 可比性LLM 因子生成
1813人机混合金融:从 AI 工具到决策系统
OpenAlex Semantic Works Search
2026-05-31数据坐标 / 高频状态, 评估审计 / 可比性, 因子生成 / 表示学习
199LENS:面向金融时序的预训练基础模型
Curated Model and Financial Time-Series Research
2024-08-19模型训练 / 序列预测MLP 时序预测
209GRU/LSTM/Transformer 金融趋势预测对照:作为轻量序列模型基线
Curated Model and Financial Time-Series Research
2024-11-08模型训练 / 序列预测MLP 时序预测

本次采集状态

数据源状态条目说明
china_broker_microstructure_curatedok5
model_timeseries_curatedok6
ai_factor_method_curatedok6
arxiv_hft_timeserieserror0<HTTPError 429: 'Unknown Error'>
openalex_hft_semanticok24https://api.openalex.org/works

数据源清单

数据源状态抓取方式优先级主题
china_broker_microstructure_curated
中文券商高频与市场微观结构精选
启用curated_seedhighchina_a_share, market_microstructure, level2, order_flow, tick_data, high_frequency_feature_engineering, order_imbalance, microprice, active_buy_sell, broker_research
model_timeseries_curated
模型与金融时序预测精选
启用curated_seedhighmlp, gru, lstm, transformer, cnn, tcn, limit_order_book, financial_time_series, high_frequency_feature_engineering, multi_horizon_forecasting
ai_factor_method_curated
AI 辅助因子生成与回测方法精选
启用curated_seedhighllm_factor_generation, alpha_mining, feature_engineering, multi_agent, backtest_feedback, factor_evolution
arxiv_hft_timeseries
arXiv 高频时序预测
启用arxiv_apihightime_series_prediction, market_microstructure, limit_order_book, deep_learning, gru, mlp, transformer, llm_factor_generation
openalex_hft_semantic
OpenAlex 语义论文检索
启用openalex_apihighsemantic_search, market_microstructure, time_series_prediction, model_training, high_frequency_feature_engineering, alpha_factor_generation
semantic_scholar_hft
Semantic Scholar 相关论文
观察semantic_scholar_apimediumcitation_graph, related_papers, impact
crossref_finance_metadata
Crossref 金融论文元数据补全
观察crossref_apimediumdoi_metadata, dedupe, publication_metadata
nber_working_papers
NBER Working Papers
观察rsslowmarket_structure, macro_context, empirical_finance
hkex_market_rss
港交所市场沟通 RSS
观察rsslowexchange_rules, market_structure, trading_mechanism
kysec_jianrong_quant_manual
开源证券/建榕量化研究人工检索
观察manual_web_searchhighmarket_microstructure, order_flow, tick_data, china_a_share
guosen_financial_engineering_manual
国信证券金融工程人工检索
观察manual_web_searchhightick_data, order_trade, active_buy_sell, broker_research
csc_microstructure_wechat_manual
中信建投市场微观结构人工检索
观察manual_web_searchhighlevel2, minute_frequency, market_microstructure, factor_mining
citics_research_portal_manual
中信证券研究门户人工检索
观察manual_web_searchmediumfinancial_engineering, market_structure, china_a_share
gf_financial_engineering_official_manual
广发证券金融工程人工检索
观察manual_web_searchmediumalgorithmic_trading, quant_factor, event_driven, market_structure
qiml_wechat_manual
量化投资与机器学习公众号人工检索
观察manual_web_searchmediumquant_media, machine_learning, industry_context
quantsplaybook_replication_github
券商金工研报复现代码库
观察manual_web_searchmediumbroker_research_replication, factor_research, code_review
sse_official_page
上交所官方页面 watcher
观察official_pagemediumexchange_rules, market_structure, china_a_share
szse_cninfo_api_manual
深交所/巨潮数据服务人工源
观察manual_web_searchmediumchina_a_share, exchange_disclosure, official_data_api
ssrn_manual_search
SSRN 人工检索
观察manual_web_searchmediumworking_papers, market_microstructure, empirical_finance