高频时序预测研究 Idea 周报 2026-W25

周报归档周期 2026-06-15 至 2026-06-21；本次 demo 允许近三年研究启发，实际采集窗口为 2023-06-16 至 2026-06-21。页面按研究类别组织，重点说明对 OB/SF/sidecar/MLP/LGB/Linear/LLM 因子管线的可能增益。

41来源条目

19候选想法

5启用数据源

2026-06-15.v3数据源版本

本周候选只代表研究启发，不代表可直接上线。进入实验前必须人工确认时序安全、数据可观测性、baseline 可比性和最低成本验证路径。

AI 辅助因子生成

7 条 · 平均分 17.9

IDEA-2026-W25-a27f038b优先级高分数 21

回测反馈驱动的因子生成链：把候选、优化和评估串成闭环

原题：Chain-of-Alpha: LLM-based framework for automated formulaic alpha mining

Curated AI Factor Generation and Backtest Method Research · 2025-08-01 · candidate 打开来源

因子生成 / 表示学习评估审计 / 可比性

LLM 因子生成回测与可比性审计

研究强调因子生成链和因子优化链，用回测反馈和先验知识迭代改进公式化 Alpha。

定位: 评估审计 / 可比性候选
研究启发: 可用于我们每周 idea -> LLM prompt -> factor card -> L0-L4 -> SFT/BT -> 经验库的闭环设计。
可能增益: 可能提升周报 idea 与实际因子实验之间的转化率，让外部研究不只是归档，而能形成下一轮 prompt 的结构化约束。
管线落点: 优先进入审计/评估方法库，服务 baseline 可比性和 SFT/BT 可信度；候选 routes: llm_factor_pipeline, backtest_audit。
最低验证: 先写审计清单或 proxy 脚本，验证 baseline regime、OOS、交易成本和统计口径。
主要风险: 主要风险是 baseline regime 混用、交易成本口径不同、in-sample proxy 被误当成正式收益。

IDEA-2026-W25-bfce6abb优先级高分数 20

FactorMAD：基于 LLM 多智能体辩论的可解释 Alpha 挖掘

原题：FactorMAD: A Multi-Agent Debate Framework Based on Large Language Models for Interpretable Alpha Factor Mining

Curated AI Factor Generation and Backtest Method Research · 2025-11-01 · candidate 打开来源

因子生成 / 表示学习

LLM 因子生成

研究把多智能体辩论用于 Alpha 因子挖掘，重点是可解释性和候选因子的机制讨论。

定位: 因子生成 / prompt 候选
研究启发: 可让 LLM 因子 pipeline 增加 debate/reviewer 阶段：一个 agent 提机制，一个 agent 查泄露，一个 agent 查字段合同，一个 agent 查经济含义。
可能增益: 可能提升候选因子机制质量，减少看似复杂但实际不可解释或不可交易的表达式。
管线落点: 可作为 LLM prompt、taxonomy 或人工研究背景；候选 routes: llm_factor_pipeline。
最低验证: 先进入人工讨论或 prompt enrichment，不直接进入实验。
主要风险: 风险未知；人工阅读原文后补全。

IDEA-2026-W25-31e382a1优先级高分数 19

AlphaAgent：带正则化探索的 LLM Alpha 挖掘

原题：AlphaAgent: LLM-Driven Alpha Mining with Regularized Exploration

Curated AI Factor Generation and Backtest Method Research · 2025-02-24 · candidate 打开来源

因子生成 / 表示学习

LLM 因子生成

研究把 LLM 用于 Alpha 挖掘，并强调正则化探索、历史经验和反馈机制，避免生成大量冗余或不可用因子。

定位: 因子生成 / prompt 候选
研究启发: 与我们的 llm_factor_pipeline 高度契合：可把 L0-L4、SFT、BT 失败原因写回经验库，用于下一轮 prompt 和候选因子约束。
可能增益: 潜在增益是减少重复 rolling-window 因子、降低 invented field 风险，提高 LLM 因子生成的有效探索率。
管线落点: 可作为 LLM prompt、taxonomy 或人工研究背景；候选 routes: llm_factor_pipeline。
最低验证: 先进入人工讨论或 prompt enrichment，不直接进入实验。
主要风险: 风险未知；人工阅读原文后补全。

IDEA-2026-W25-7c9e1e60优先级高分数 19

进化式 LLM Alpha 因子发现：用反馈循环迭代优化因子池

原题：Evolutionary Alpha Factor Discovery with Large Language Models for Sparse Portfolio Optimization

Curated AI Factor Generation and Backtest Method Research · 2025-11-01 · candidate 打开来源

因子生成 / 表示学习

LLM 因子生成

研究用 LLM 自动生成并迭代优化 Alpha 因子，把因子信号和投资组合选择反馈结合起来。

定位: 因子生成 / prompt 候选
研究启发: 可把我们的 discovery -> SFT -> BT 结果变成进化反馈：保留机制、变异表达、约束字段、淘汰低质量模式。
可能增益: 可能让 LLM 因子生成从一次性 prompt 变成带记忆的持续研究系统。
管线落点: 可作为 LLM prompt、taxonomy 或人工研究背景；候选 routes: llm_factor_pipeline。
最低验证: 先进入人工讨论或 prompt enrichment，不直接进入实验。
主要风险: 风险未知；人工阅读原文后补全。

IDEA-2026-W25-9dfdbf58优先级高分数 17

LLM 自动策略发现：风险感知多智能体生成可执行 Alpha 因子

原题：Automate Strategy Finding with LLM in Quant Investment

Curated AI Factor Generation and Backtest Method Research · 2025-11-01 · candidate 打开来源

因子生成 / 表示学习评估审计 / 可比性

LLM 因子生成

研究提出多阶段、多智能体框架，用 LLM 生成可执行 Alpha 候选，并加入风险感知与评估反馈。

定位: 因子生成 / prompt 候选
研究启发: 可映射到我们的多 agent 因子发现：生成、批评、静态分析、回测代理、人工 review 分工更明确。
可能增益: 潜在增益是提高因子代码可执行率和研究流程可追溯性，减少人工从零构思的成本。
管线落点: 可作为 LLM prompt、taxonomy 或人工研究背景；候选 routes: llm_factor_pipeline。
最低验证: 先进入人工讨论或 prompt enrichment，不直接进入实验。
主要风险: 风险未知；人工阅读原文后补全。

IDEA-2026-W25-e82cae75优先级高分数 17

LLM + 进化优化的稳健特征工程：从手工因子到自动特征发现

原题：LLM-Driven Automated Robust Feature Engineering

Curated AI Factor Generation and Backtest Method Research · 2025-01-01 · candidate 打开来源

因子生成 / 表示学习

LLM 因子生成

研究把 LLM 与进化优化结合，用于自动发现稳健、可解释的特征。

定位: 因子生成 / prompt 候选
研究启发: 可用于我们的 LGB/Linear/MLP 特征工程侧：把 LLM 生成的候选表达先过 static analyzer、相关性去重、稳定性 proxy，再进入 SFT/BT。
可能增益: 潜在增益是把 AI 从“写单个因子”升级为“维护候选特征池和失败经验库”。
管线落点: 可作为 LLM prompt、taxonomy 或人工研究背景；候选 routes: llm_factor_pipeline。
最低验证: 先进入人工讨论或 prompt enrichment，不直接进入实验。
主要风险: 风险未知；人工阅读原文后补全。

IDEA-2026-W25-b641f4ee优先级中分数 12

待人工翻译：CFOs Meet LLMs

原题：CFOs Meet LLMs

arXiv HFT Time-Series Forecasting · 2026-06-11 · candidate 打开来源

因子生成 / 表示学习

LLM 因子生成

英文来源尚未人工精读，本页只保留元数据；进入实验前需要补充中文机制摘要。

定位: 因子生成 / prompt 候选
研究启发: 启发重点是把外部研究机制转成 LLM factor prompt、静态分析规则或 idea taxonomy。
可能增益: 潜在增益待人工确认，当前不建议直接进入训练或回测。
管线落点: 可作为 LLM prompt、taxonomy 或人工研究背景；候选 routes: llm_factor_pipeline。
最低验证: 先进入人工讨论或 prompt enrichment，不直接进入实验。
主要风险: 风险未知；人工阅读原文后补全。

中文券商高频与订单流

5 条 · 平均分 23.8

IDEA-2026-W25-39e21387优先级高分数 28

开源证券：市场微观结构观察与2023年以来的高频因子回顾

原题：KYSEC market microstructure observation and high-frequency factor review since 2023

Curated Chinese Broker Microstructure Research · 2025-08-06 · candidate 打开来源

因子生成 / 表示学习数据坐标 / 高频状态

LLM 因子生成

报告从早盘交易集中度、单笔委托金额、订单簿筹码充足率、程序化交易比例等角度观察 A 股微观交易特征，并回顾 2023 年以来高维记忆、强反转、彩票委托等高频因子的表现。

定位: 数据坐标 / sidecar 候选
研究启发: 适合转化为 market-state/context sidecar：把市场活跃度、订单簿厚度、冲击成本、撤单率、程序化交易比例作为状态条件，而不是只做单股票 rolling 量价特征。
可能增益: 可能提升因子在不同市场阶段的稳定性，尤其是识别放量、拥挤、流动性改善或高频策略容量变化时的 regime shift。
管线落点: 优先判断是否能成为 OB 1s exact-axis sidecar；候选 routes: llm_factor_pipeline。
最低验证: 先做数据可观测性与 past-only sidecar 可行性审计，再决定是否进入 LLM source contract。
主要风险: 主要风险是 future aggregation、跨日 carry、动态 universe 回灌未来、缺失 stock-day 被零填充。

IDEA-2026-W25-bc3ab97e优先级高分数 26

中信建投：市场微观结构系列研究，从分钟频到 Level2 的探索与发现

原题：CSC market microstructure research from minute frequency to Level2

Curated Chinese Broker Microstructure Research · 2025-12-17 · candidate 打开来源

因子生成 / 表示学习数据坐标 / 高频状态

LLM 因子生成

文章系统整理分钟频高频因子挖掘和 Level2 数据应用经验，强调市场微观结构变化会影响历史统计规律一致性，并用成交量、大单买入笔数、主动买卖金额等指标对解释高频 Alpha。

定位: 数据坐标 / sidecar 候选
研究启发: 与我们的 OB/SF 预测最契合：可把 Level2 指标对、主动买卖同步性、大单交易行为、分钟频到秒级的状态迁移纳入 sidecar taxonomy。
可能增益: 可能为 LLM 因子生成提供中文机制模板，也能帮助 MLP/LGB 侧构造更可解释的 order-flow interaction 特征。
管线落点: 优先判断是否能成为 OB 1s exact-axis sidecar；候选 routes: llm_factor_pipeline。
最低验证: 先做数据可观测性与 past-only sidecar 可行性审计，再决定是否进入 LLM source contract。
主要风险: 主要风险是 future aggregation、跨日 carry、动态 universe 回灌未来、缺失 stock-day 被零填充。

IDEA-2026-W25-3f512fff优先级高分数 23

国信证券：高频订单成交数据蕴含的 Alpha 信息

原题：Guosen Securities alpha information in high-frequency order transaction data

Curated Chinese Broker Microstructure Research · 2024-01-08 · candidate 打开来源

因子生成 / 表示学习数据坐标 / 高频状态

LLM 因子生成数据 sidecar / 高频衍生数据

报告围绕逐笔成交数据，从订单大小、成交时长、成交时间、出价高低等维度构造因子，并提出大单交易占比、漫长订单交易占比以及复合因子框架。

定位: 数据坐标 / sidecar 候选
研究启发: 可直接映射到我们的 Stream/OB 数据：订单大小、成交耗时、早尾盘属性、高低价属性可以成为可审计的 sidecar 字段或 LLM 因子模板。
可能增益: 可能提供比普通成交量 rolling 更细的行为分解，帮助识别拆单、被动吸收、流动性消耗和延迟成交状态。
管线落点: 优先判断是否能成为 OB 1s exact-axis sidecar；候选 routes: llm_factor_pipeline, data_processing_sidecar。
最低验证: 先做数据可观测性与 past-only sidecar 可行性审计，再决定是否进入 LLM source contract。
主要风险: 主要风险是 future aggregation、跨日 carry、动态 universe 回灌未来、缺失 stock-day 被零填充。

IDEA-2026-W25-759776b6优先级高分数 23

开源证券订单流系列：挂单方向长期记忆性的讨论与应用

原题：KYSEC order flow long memory of order submission direction

Curated Chinese Broker Microstructure Research · 2024-06-09 · candidate 打开来源

数据坐标 / 高频状态

数据 sidecar / 高频衍生数据LLM 因子生成

报告利用逐笔委托数据研究挂单方向是否存在长期记忆，讨论订单方向自相关、拆单行为以及靠近盘口和远离盘口委托之间的差异。

定位: 数据坐标 / sidecar 候选
研究启发: 非常适合转化为 PriceLevelMemory / PathMemory 类 sidecar：不仅看当前盘口，还看历史挂单方向在不同价格层的延续性和衰减方式。
可能增益: 可能为当前 PLM、jump decay、path memory 提供中文实证机制，帮助 LLM 生成更贴近订单行为而非普通 rolling 的候选因子。
管线落点: 优先判断是否能成为 OB 1s exact-axis sidecar；候选 routes: data_processing_sidecar, llm_factor_pipeline。
最低验证: 先做数据可观测性与 past-only sidecar 可行性审计，再决定是否进入 LLM source contract。
主要风险: 主要风险是 future aggregation、跨日 carry、动态 universe 回灌未来、缺失 stock-day 被零填充。

IDEA-2026-W25-874bfa0c优先级高分数 19

国信金工：基于主动买卖特征的高频订单因子改进

原题：Guosen Securities high-frequency order factor improvement via active buy-sell features

Curated Chinese Broker Microstructure Research · 2024-08-20 · candidate 打开来源

数据坐标 / 高频状态因子生成 / 表示学习

数据 sidecar / 高频衍生数据LLM 因子生成

文章聚焦逐笔成交中的主动买卖方向识别，比较基于委托时间和基于成交价格的划分方法，讨论不同主动成交方向对未来收益的差异。

定位: 数据坐标 / sidecar 候选
研究启发: 适合给我们的成交流加入主动方向、主动强度和方向可靠度字段，并对不同识别方法做一致性 gate。
可能增益: 潜在增益在于把 trade flow 从简单量价序列拆成主动/被动、方向/强度、方法置信度三层，提高短 horizon 预测解释性。
管线落点: 优先判断是否能成为 OB 1s exact-axis sidecar；候选 routes: data_processing_sidecar, llm_factor_pipeline。
最低验证: 先做数据可观测性与 past-only sidecar 可行性审计，再决定是否进入 LLM source contract。
主要风险: 主要风险是 future aggregation、跨日 carry、动态 universe 回灌未来、缺失 stock-day 被零填充。

时序预测模型与 LOB

5 条 · 平均分 21.6

IDEA-2026-W25-616a0955优先级高分数 32

TLOB / MLPLOB：基于 LOB 数据的 MLP 与双注意力 Transformer 趋势预测

原题：A Novel Transformer Model with Dual Attention for Stock Price Trend Prediction with Limit Order Book Data

Curated Model and Financial Time-Series Research · 2025-02-21 · candidate 打开来源

模型训练 / 序列预测数据坐标 / 高频状态评估审计 / 可比性

MLP 时序预测LLM 因子生成

研究比较简单 MLPLOB 和双注意力 Transformer TLOB，用多档 LOB 序列预测股票价格趋势。它对我们有价值的地方是把 MLP 作为强基线，而不是只把 Transformer 当作唯一方向。

定位: 数据坐标 / sidecar 候选
研究启发: 适合设计 MLP/GRU/Transformer 的等口径对照：相同输入窗口、相同 label horizon、相同 normalization、相同 backtest contract。
可能增益: 可为 mlp_codeX 增加模型结构改进路线：档位维 attention、时间维 attention、轻量 MLP baseline、以及模型复杂度与收益增益的可比审计。
管线落点: 优先判断是否能成为 OB 1s exact-axis sidecar；候选 routes: mlp_codeX, llm_factor_pipeline。
最低验证: 先做数据可观测性与 past-only sidecar 可行性审计，再决定是否进入 LLM source contract。
主要风险: 主要风险是 future aggregation、跨日 carry、动态 universe 回灌未来、缺失 stock-day 被零填充。

IDEA-2026-W25-75704704优先级高分数 29

LiT：限价订单簿 Transformer，用结构化 patch 捕捉空间与时间依赖

原题：LiT: limit order book transformer

Curated Model and Financial Time-Series Research · 2025-10-01 · candidate 打开来源

数据坐标 / 高频状态模型训练 / 序列预测

LLM 因子生成MLP 时序预测

LiT 面向高频 LOB 短期市场运动预测，强调用结构化 patch 和 Transformer 建模订单簿的空间层级和时间依赖。

定位: 数据坐标 / sidecar 候选
研究启发: 可把 10 档盘口、价量层级、买卖两侧、时间窗口拆成结构化 patch，而不是把所有列直接展平给 MLP。
可能增益: 可能改善模型对价格层相对位置、bid/ask 不对称、局部盘口形态的吸收，适合作为 MLP 结构升级方向。
管线落点: 优先判断是否能成为 OB 1s exact-axis sidecar；候选 routes: llm_factor_pipeline, mlp_codeX。
最低验证: 先做数据可观测性与 past-only sidecar 可行性审计，再决定是否进入 LLM source contract。
主要风险: 主要风险是 future aggregation、跨日 carry、动态 universe 回灌未来、缺失 stock-day 被零填充。

IDEA-2026-W25-9cce7f91优先级高分数 29

Deep Limit Order Book Forecasting：深度限价订单簿预测与 LOBFrame 基准

原题：Deep Limit Order Book Forecasting

Curated Model and Financial Time-Series Research · 2024-03-14 · candidate 打开来源

数据坐标 / 高频状态模型训练 / 序列预测因子生成 / 表示学习

LLM 因子生成

研究用 LOBFrame 处理大规模限价订单簿数据，并比较深度模型对 NASDAQ 股票中间价变化的预测能力。重要结论是：高预测指标不一定等于可交易信号，传统 ML 指标不足以评价 LOB 预测。

定位: 数据坐标 / sidecar 候选
研究启发: 应把我们的 MLP/GRU/CNN/Transformer 训练评估从单一 IC/分类准确率扩展到交易可执行性、成交概率、预测完整交易方向等 operational metrics。
可能增益: 可帮助解释为什么模型离线指标提升不一定转化为收益，并为 MLP/Linear/LGB 对照建立更合理的验证口径。
管线落点: 优先判断是否能成为 OB 1s exact-axis sidecar；候选 routes: llm_factor_pipeline。
最低验证: 先做数据可观测性与 past-only sidecar 可行性审计，再决定是否进入 LLM source contract。
主要风险: 主要风险是 future aggregation、跨日 carry、动态 universe 回灌未来、缺失 stock-day 被零填充。

IDEA-2026-W25-5a2dfd8b优先级中分数 9

GRU/LSTM/Transformer 金融趋势预测对照：作为轻量序列模型基线

原题：Comparative Analysis of LSTM, GRU, and Transformer Models for Stock Price Trend Prediction

Curated Model and Financial Time-Series Research · 2024-11-08 · candidate 打开来源

模型训练 / 序列预测

MLP 时序预测

研究比较 LSTM、GRU、Transformer 在金融趋势预测任务中的表现。虽然标的和频率未必贴合我们，但适合作为模型家族对照提醒。

定位: 模型训练 / 融合候选
研究启发: GRU 是值得加入的轻量路径记忆 baseline：参数量比 Transformer 小，可能比纯 MLP 更能吸收 120 tick 内的状态延续。
可能增益: 可用于 mlp_codeX 的低成本模型扩展：MLP vs GRU vs TCN vs small Transformer，在相同数据切分和交易评估下比较。
管线落点: 优先作为 MLP/LGB/Linear 的训练或融合实验，不直接改变因子数据；候选 routes: mlp_codeX。
最低验证: 先做小样本 MLP/LGB/Linear 对照，不改生产 baseline，检查 label、normalization、delete-ranges 是否一致。
主要风险: 主要风险是训练/推理 normalization 不一致、validation 泄露、label horizon 与生产 baseline 不一致。

IDEA-2026-W25-9a5092a6优先级中分数 9

LENS：面向金融时序的预训练基础模型

原题：LENS: Large Pre-trained Transformer for Exploring Financial Time Series

Curated Model and Financial Time-Series Research · 2024-08-19 · candidate 打开来源

模型训练 / 序列预测

MLP 时序预测

研究提出面向金融时序的预训练 Transformer，强调金融数据低信噪比、高随机性和大规模预训练框架。

定位: 模型训练 / 融合候选
研究启发: 可考虑在我们自己的 OB/SF/sidecar 数据上做自监督预训练，例如 mask reconstruction、next-state prediction、contrastive state matching。
可能增益: 潜在增益在于让 MLP/GRU/Transformer 不只依赖监督 label，而先学习盘口状态空间和跨股票共性表示。
管线落点: 优先作为 MLP/LGB/Linear 的训练或融合实验，不直接改变因子数据；候选 routes: mlp_codeX。
最低验证: 先做小样本 MLP/LGB/Linear 对照，不改生产 baseline，检查 label、normalization、delete-ranges 是否一致。
主要风险: 主要风险是训练/推理 normalization 不一致、validation 泄露、label horizon 与生产 baseline 不一致。

订单簿表示与逐笔数据

1 条 · 平均分 27.0

IDEA-2026-W25-ed1d1cfb优先级高分数 27

多层 LOB 的阅读、突出与预测：从预测中间价扩展到预测整本订单簿

原题：Attention-Based Reading, Highlighting, and Forecasting of the Limit Order Book

Curated Model and Financial Time-Series Research · 2024-09-03 · candidate 打开来源

模型训练 / 序列预测数据坐标 / 高频状态

MLP 时序预测LLM 因子生成

研究用 seq2seq 模型预测多层 LOB 的价格和数量，而不只预测中间价方向。

定位: 数据坐标 / sidecar 候选
研究启发: 启发我们把 OB 预测目标扩展为 next-state / book-shape reconstruction，并把 reconstruction loss 作为辅助任务。
可能增益: 可能提升模型对盘口状态演化的理解，辅助短 horizon return label 的弱信号学习。
管线落点: 优先判断是否能成为 OB 1s exact-axis sidecar；候选 routes: mlp_codeX, llm_factor_pipeline。
最低验证: 先做数据可观测性与 past-only sidecar 可行性审计，再决定是否进入 LLM source contract。
主要风险: 主要风险是 future aggregation、跨日 carry、动态 universe 回灌未来、缺失 stock-day 被零填充。

高频订单流与微观结构

1 条 · 平均分 13.0

IDEA-2026-W25-09a448b6优先级中分数 13

两个耦合限价订单簿中的相关性涌现与 Epps 效应

原题：Correlation emergence and the Epps effect in two coupled limit order books

arXiv HFT Time-Series Forecasting · 2026-06-12 · candidate 打开来源

数据坐标 / 高频状态因子生成 / 表示学习

数据 sidecar / 高频衍生数据

该研究关注两个相互耦合的限价订单簿中，短周期相关性如何随时间尺度变化而涌现。Epps 效应提示高频相关性在极短 horizon 下可能被异步交易、流动性和订单到达机制削弱。

定位: 数据坐标 / sidecar 候选
研究启发: 可用于我们研究跨股票/跨资产 sidecar：不要只看同步截面相关，而要按事件时间、成交活跃度或流动性状态重建相关性。
可能增益: 可能改善 CrossSectional/MarketContext 类特征在 1s/短 horizon 下的时序对齐和可靠性判断。
管线落点: 优先判断是否能成为 OB 1s exact-axis sidecar；候选 routes: data_processing_sidecar。
最低验证: 先做数据可观测性与 past-only sidecar 可行性审计，再决定是否进入 LLM source contract。
主要风险: 主要风险是 future aggregation、跨日 carry、动态 universe 回灌未来、缺失 stock-day 被零填充。

高分来源条目

#	分数	标题	日期	研究轴	管线落点
1	32	TLOB / MLPLOB：基于 LOB 数据的 MLP 与双注意力 Transformer 趋势预测 Curated Model and Financial Time-Series Research	2025-02-21	模型训练 / 序列预测, 数据坐标 / 高频状态, 评估审计 / 可比性	MLP 时序预测, LLM 因子生成
2	29	Deep Limit Order Book Forecasting：深度限价订单簿预测与 LOBFrame 基准 Curated Model and Financial Time-Series Research	2024-03-14	数据坐标 / 高频状态, 模型训练 / 序列预测, 因子生成 / 表示学习	LLM 因子生成
3	29	LiT：限价订单簿 Transformer，用结构化 patch 捕捉空间与时间依赖 Curated Model and Financial Time-Series Research	2025-10-01	数据坐标 / 高频状态, 模型训练 / 序列预测	LLM 因子生成, MLP 时序预测
4	28	开源证券：市场微观结构观察与2023年以来的高频因子回顾 Curated Chinese Broker Microstructure Research	2025-08-06	因子生成 / 表示学习, 数据坐标 / 高频状态	LLM 因子生成
5	27	多层 LOB 的阅读、突出与预测：从预测中间价扩展到预测整本订单簿 Curated Model and Financial Time-Series Research	2024-09-03	模型训练 / 序列预测, 数据坐标 / 高频状态	MLP 时序预测, LLM 因子生成
6	26	中信建投：市场微观结构系列研究，从分钟频到 Level2 的探索与发现 Curated Chinese Broker Microstructure Research	2025-12-17	因子生成 / 表示学习, 数据坐标 / 高频状态	LLM 因子生成
7	23	国信证券：高频订单成交数据蕴含的 Alpha 信息 Curated Chinese Broker Microstructure Research	2024-01-08	因子生成 / 表示学习, 数据坐标 / 高频状态	LLM 因子生成, 数据 sidecar / 高频衍生数据
8	23	开源证券订单流系列：挂单方向长期记忆性的讨论与应用 Curated Chinese Broker Microstructure Research	2024-06-09	数据坐标 / 高频状态	数据 sidecar / 高频衍生数据, LLM 因子生成
9	21	回测反馈驱动的因子生成链：把候选、优化和评估串成闭环 Curated AI Factor Generation and Backtest Method Research	2025-08-01	因子生成 / 表示学习, 评估审计 / 可比性	LLM 因子生成, 回测与可比性审计
10	20	FactorMAD：基于 LLM 多智能体辩论的可解释 Alpha 挖掘 Curated AI Factor Generation and Backtest Method Research	2025-11-01	因子生成 / 表示学习	LLM 因子生成
11	19	国信金工：基于主动买卖特征的高频订单因子改进 Curated Chinese Broker Microstructure Research	2024-08-20	数据坐标 / 高频状态, 因子生成 / 表示学习	数据 sidecar / 高频衍生数据, LLM 因子生成
12	19	AlphaAgent：带正则化探索的 LLM Alpha 挖掘 Curated AI Factor Generation and Backtest Method Research	2025-02-24	因子生成 / 表示学习	LLM 因子生成
13	19	进化式 LLM Alpha 因子发现：用反馈循环迭代优化因子池 Curated AI Factor Generation and Backtest Method Research	2025-11-01	因子生成 / 表示学习	LLM 因子生成
14	17	LLM + 进化优化的稳健特征工程：从手工因子到自动特征发现 Curated AI Factor Generation and Backtest Method Research	2025-01-01	因子生成 / 表示学习	LLM 因子生成
15	17	LLM 自动策略发现：风险感知多智能体生成可执行 Alpha 因子 Curated AI Factor Generation and Backtest Method Research	2025-11-01	因子生成 / 表示学习, 评估审计 / 可比性	LLM 因子生成
16	13	两个耦合限价订单簿中的相关性涌现与 Epps 效应 arXiv HFT Time-Series Forecasting	2026-06-12	数据坐标 / 高频状态, 因子生成 / 表示学习	数据 sidecar / 高频衍生数据
17	12	待人工翻译：CFOs Meet LLMs arXiv HFT Time-Series Forecasting	2026-06-11	因子生成 / 表示学习	LLM 因子生成
18	9	LENS：面向金融时序的预训练基础模型 Curated Model and Financial Time-Series Research	2024-08-19	模型训练 / 序列预测	MLP 时序预测
19	9	GRU/LSTM/Transformer 金融趋势预测对照：作为轻量序列模型基线 Curated Model and Financial Time-Series Research	2024-11-08	模型训练 / 序列预测	MLP 时序预测

本次采集状态

数据源	状态	条目	说明
`china_broker_microstructure_curated`	ok	5
`model_timeseries_curated`	ok	6
`ai_factor_method_curated`	ok	6
`arxiv_hft_timeseries`	ok	24	https://export.arxiv.org/api/query
`openalex_hft_semantic`	error	0	TimeoutError('The read operation timed out')

数据源清单

数据源	状态	抓取方式	优先级	主题
`china_broker_microstructure_curated` 中文券商高频与市场微观结构精选	启用	curated_seed	high	china_a_share, market_microstructure, level2, order_flow, tick_data, broker_research
`model_timeseries_curated` 模型与金融时序预测精选	启用	curated_seed	high	mlp, gru, lstm, transformer, cnn, tcn, limit_order_book, financial_time_series, multi_horizon_forecasting
`ai_factor_method_curated` AI 辅助因子生成与回测方法精选	启用	curated_seed	high	llm_factor_generation, alpha_mining, feature_engineering, multi_agent, backtest_feedback, factor_evolution
`arxiv_hft_timeseries` arXiv 高频时序预测	启用	arxiv_api	high	time_series_prediction, market_microstructure, limit_order_book, deep_learning, gru, mlp, transformer, llm_factor_generation
`openalex_hft_semantic` OpenAlex 语义论文检索	启用	openalex_api	high	semantic_search, market_microstructure, time_series_prediction, model_training, alpha_factor_generation
`semantic_scholar_hft` Semantic Scholar 相关论文	观察	semantic_scholar_api	medium	citation_graph, related_papers, impact
`crossref_finance_metadata` Crossref 金融论文元数据补全	观察	crossref_api	medium	doi_metadata, dedupe, publication_metadata
`nber_working_papers` NBER Working Papers	观察	rss	low	market_structure, macro_context, empirical_finance
`hkex_market_rss` 港交所市场沟通 RSS	观察	rss	low	exchange_rules, market_structure, trading_mechanism
`kysec_jianrong_quant_manual` 开源证券/建榕量化研究人工检索	观察	manual_web_search	high	market_microstructure, order_flow, tick_data, china_a_share
`guosen_financial_engineering_manual` 国信证券金融工程人工检索	观察	manual_web_search	high	tick_data, order_trade, active_buy_sell, broker_research
`csc_microstructure_wechat_manual` 中信建投市场微观结构人工检索	观察	manual_web_search	high	level2, minute_frequency, market_microstructure, factor_mining
`citics_research_portal_manual` 中信证券研究门户人工检索	观察	manual_web_search	medium	financial_engineering, market_structure, china_a_share
`gf_financial_engineering_official_manual` 广发证券金融工程人工检索	观察	manual_web_search	medium	algorithmic_trading, quant_factor, event_driven, market_structure
`qiml_wechat_manual` 量化投资与机器学习公众号人工检索	观察	manual_web_search	medium	quant_media, machine_learning, industry_context
`quantsplaybook_replication_github` 券商金工研报复现代码库	观察	manual_web_search	medium	broker_research_replication, factor_research, code_review
`sse_official_page` 上交所官方页面 watcher	观察	official_page	medium	exchange_rules, market_structure, china_a_share
`szse_cninfo_api_manual` 深交所/巨潮数据服务人工源	观察	manual_web_search	medium	china_a_share, exchange_disclosure, official_data_api
`ssrn_manual_search` SSRN 人工检索	观察	manual_web_search	medium	working_papers, market_microstructure, empirical_finance