- Chain-of-Alpha:基于 LLM 的自动公式化 Alpha 挖掘框架把 LLM 因子生成变成闭环流程
- FactorMAD:基于 LLM 多智能体辩论的可解释 Alpha 因子挖掘把 LLM 因子生成从单 agent 扩展为多 agent 辩论
- LLM + 进化优化的稳健特征工程:从手工因子到自动特征发现LLM 与进化优化结合做特征发现
高频时序预测研究 Idea 周报 2026-W26
周报归档周期 2026-06-22 至 2026-06-28;本次 demo 允许近三年研究启发,实际采集窗口为 2023-06-23 至 2026-06-28。页面按研究类别组织,使用 LLM 或人工 notes 提取摘要、亮点、背景、逻辑、方法、数据、结果和启发;没有依据的字段不展示,并特别标注高频数据特征工程对 OB/SF/sidecar/MLP/LGB/Linear/LLM 因子管线的可能增益。
本周汇总导航
重点亮点
- 高频数据特征工程:中信建投:从分钟频到 Level2 的市场微观结构探索从分钟频因子扩展到 Level2 行为特征
- 时序预测模型与 LOB:TLOB / MLPLOB:基于 LOB 数据的 MLP 与双注意力 Transformer 趋势预测同时比较 MLPLOB 与双注意力 Transformer
- 高频数据特征工程:国信证券:高频订单成交数据中的 Alpha 信息从逐笔成交中拆解订单大小和成交时长
- 时序预测模型与 LOB:LiT:用结构化 patch 建模限价订单簿的空间与时间依赖用结构化 patch 表示 LOB
- 高频数据特征工程:开源证券订单流系列:挂单方向长期记忆性的讨论与应用关注挂单方向长期记忆
AI 辅助因子生成
7 条 · 平均分 17.9Chain-of-Alpha:基于 LLM 的自动公式化 Alpha 挖掘框架
- 把 LLM 因子生成变成闭环流程
- 强调回测反馈和先验知识迭代
- 适合连接周报 idea 与实验管线
- 可沉淀成功和失败经验库
该研究强调用 LLM 构建自动公式化 Alpha 挖掘流程,将候选生成、因子优化和回测评估串成闭环。输入信息显示,核心是因子生成链和因子优化链,通过回测反馈和先验知识迭代改进公式化 Alpha。由于输入未提供具体数据、模型实现或实验收益,结果部分留空。对我们的周报体系而言,这篇研究的价值在于把外部 idea 从文本摘要推进到可执行因子实验:idea 进入 prompt,生成 factor card,经 L0-L4 检查、SFT/BT 验证,再把成功和失败经验写回经验库,形成下一轮生成约束。
- 定位
- 评估审计 / 可比性候选
- 背景
- 自动因子挖掘不仅需要生成候选表达,还需要把先验知识、回测反馈和评估结果纳入迭代,否则外部研究容易停留在归档层面。
- 逻辑
- 核心逻辑是用 LLM 生成公式化 Alpha 候选,再用回测反馈和先验知识驱动优化,使因子挖掘从一次性生成变成闭环搜索过程。
- 方法
- 输入说明研究强调因子生成链和因子优化链,用回测反馈和先验知识迭代改进公式化 Alpha。
- 特征工程
- 对高频特征工程的直接启发是将每周研究 idea 结构化为可检索约束,例如订单不平衡、主动买卖、微价格、价格层记忆、队列状态和盘口形态等字段,再驱动 LLM 生成可审计的候选表达。
- 研究启发
- 在我们的 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线中,可把 Chain-of-Alpha 映射为 idea -> LLM prompt -> factor card -> static analyzer -> L0-L4 -> SFT/BT -> 经验库的闭环。LLM 负责生成和改写候选,Linear/LGB/MLP 负责不同复杂度的验证,sidecar 提供上下文和高频衍生字段,回测与可比性审计负责阻断不可比或疑似泄漏的结果。
- 管线落点
- 优先进入审计/评估方法库,服务 baseline 可比性和 SFT/BT 可信度;候选 routes: llm_factor_pipeline, backtest_audit。
- 可能增益
- 可能提升周报 idea 与实际因子实验之间的转化率,让外部研究不只是归档,而能形成下一轮 prompt 的结构化约束。
FactorMAD:基于 LLM 多智能体辩论的可解释 Alpha 因子挖掘
- 把 LLM 因子生成从单 agent 扩展为多 agent 辩论
- 重点放在机制解释和候选因子审查
- 适合补强 LLM 因子 pipeline 的 reviewer 阶段
- 有助于减少复杂但不可解释的表达式
这项研究将多智能体辩论机制引入 Alpha 因子挖掘,核心关注点不是单纯让 LLM 生成更多表达式,而是围绕候选因子的经济机制、可解释性和合理性展开讨论。它适合被看作 LLM 因子生成流程中的质量控制框架:不同智能体可以从机制解释、字段使用、泄露风险、可交易性和表达式合理性等角度互相质询,从而降低生成复杂但无法解释、不可执行或研究价值较低因子的概率。输入信息没有提供具体数据集、实验设定或收益结果,因此不应把它理解为已证明能直接提升回测收益,而更应关注其流程设计对因子研究审计链条的启发。
- 定位
- 因子生成 / prompt 候选
- 背景
- LLM 用于 Alpha 因子挖掘时容易生成看似复杂但机制薄弱、字段不合规或难以交易的候选表达式,因此需要更强的解释和审查机制。
- 逻辑
- 通过多智能体辩论,让候选因子在进入后续筛选或回测前接受多角度质询;如果一个因子无法通过机制解释、泄露检查和字段合同检查,它的研究优先级应被降低。
- 方法
- 采用基于 LLM 的多智能体辩论框架,用不同 agent 围绕候选 Alpha 因子的解释性和机制合理性进行讨论与审查。
- 特征工程
- 对高频特征工程的启发在于,LLM 生成盘口因子时不应只堆叠 rolling-window 表达式,而要强制说明它利用的是订单不平衡、主动买卖、微价格、队列状态、价格层记忆还是盘口形态,并由审查 agent 判断这些解释是否和字段含义一致。
- 研究启发
- 可直接映射到我们的 LLM 因子管线:在 discovery 后、SFT/BT 前增加 debate/reviewer 阶段。一个 agent 负责提出经济机制,一个 agent 检查未来函数和标签泄露,一个 agent 检查 OB/SF/sidecar 字段合同,一个 agent 检查因子是否只是无意义复杂表达式。这样可以提升进入 MLP/LGB/Linear 评估前的候选质量,也能为人工 review 留下更清晰的审计记录。
- 管线落点
- 可作为 LLM prompt、taxonomy 或人工研究背景;候选 routes: llm_factor_pipeline。
- 可能增益
- 可能提升候选因子机制质量,减少看似复杂但实际不可解释或不可交易的表达式。
LLM + 进化优化的稳健特征工程:从手工因子到自动特征发现
- LLM 与进化优化结合做特征发现
- 目标是稳健且可解释的特征
- 适合维护候选特征池
- 可接入静态分析和稳定性筛选
该研究将 LLM 与进化优化结合,用于自动发现稳健、可解释的特征。输入信息没有给出具体算法细节、数据集或实验结果,因此不补写性能结论。它最值得关注的点在于将 AI 从“生成单个因子表达式”推进到“维护候选特征池”:LLM 可以提出候选变换和组合,进化优化负责搜索与改进,后续再通过静态分析、相关性去重、稳定性 proxy 和回测验证筛选可用特征。对高频研究而言,这种框架适合用于系统性探索订单流、盘口状态和事件时间衍生变量。
- 定位
- 高频数据特征工程候选
- 背景
- 手工特征工程依赖研究员经验,覆盖范围有限;LLM 与优化算法结合可以扩大候选特征搜索空间,同时保留一定可解释性约束。
- 逻辑
- 核心逻辑是让 LLM 生成可解释候选特征,再通过进化优化搜索更稳健的组合或表达,并用后续筛选机制控制冗余、不稳定和不可用特征。
- 方法
- 输入说明研究把 LLM 与进化优化结合,用于自动发现稳健、可解释的特征。
- 特征工程
- 适合用于高频特征池扩展:围绕订单不平衡、主动买卖、微价格、价格层记忆、队列状态、成交时长、事件时间、盘口形态和横截面状态生成候选表达,再通过静态分析、相关性去重和稳定性 proxy 过滤。
- 研究启发
- 在我们的 LGB/Linear/MLP 与 LLM 因子管线中,可将其落地为候选特征池维护机制:LLM 生成特征表达,static analyzer 检查可计算性和泄漏风险,相关性去重避免重复 rolling 变体,稳定性 proxy 做初筛,再进入 SFT/BT。对 sidecar 数据,可让 LLM 明确引用 OB、SF、market-state 或 trade-flow 字段,形成可追踪的特征来源和失败经验库。
- 管线落点
- 优先进入高频 feature pool / sidecar taxonomy,同时服务 LGB/Linear/MLP 和 LLM factor prompt;候选 routes: llm_factor_pipeline, hft_feature_engineering。
- 可能增益
- 潜在增益是把 AI 从“写单个因子”升级为“维护候选特征池和失败经验库”。
AlphaAgent:带正则化探索的 LLM Alpha 挖掘
- 强调 LLM 因子生成中的正则化探索
- 把历史经验和反馈纳入下一轮生成
- 适合减少重复因子和不可用字段
- 可作为持续型因子发现系统的设计参考
这项研究将 LLM 用于 Alpha 挖掘,并强调正则化探索、历史经验和反馈机制。它关注的问题是:如果让 LLM 持续生成因子,系统很容易陷入重复生成相似 rolling-window 变体、发明不可用字段,或产生大量低质量候选。正则化探索的价值在于把已有失败经验、历史候选和反馈信息纳入下一轮生成约束,让 LLM 的搜索更有方向,而不是每轮从零开始发散。输入没有提供具体实验结果,因此这里只能把它作为 LLM 因子生成系统设计参考,而不能推断其收益改善幅度。
- 定位
- 因子生成 / prompt 候选
- 背景
- LLM Alpha 挖掘需要在探索新表达和避免冗余之间取得平衡;缺少反馈约束时,生成结果可能大量重复或不可用。
- 逻辑
- 将历史经验、失败原因和反馈信号写回探索过程,可以正则化 LLM 的生成空间,使下一轮候选更少重复、更少违反字段约束,并更贴近可测试的经济机制。
- 方法
- 使用 LLM 驱动 Alpha 挖掘,并在探索过程中加入正则化、历史经验和反馈机制。
- 特征工程
- 对高频因子生成的启发是建立特征家族级别的探索约束:例如区分订单不平衡、主动买卖、微价格偏离、价格层记忆、队列状态、成交时长、事件时间和横截面状态,记录哪些方向已反复失败,避免 LLM 只在同一类窗口统计上做表面变形。
- 研究启发
- 与我们的 llm_factor_pipeline 高度契合。可以把 L0-L4 静态分析、SFT 失败原因、BT 表现、字段合同错误和人工 review 意见写回经验库,下一轮 prompt 根据这些记录惩罚重复模式、禁止 invented field、鼓励未充分探索的 sidecar/OB/SF 状态坐标。对 MLP/LGB/Linear 后续评估而言,这种反馈能减少无效候选占用训练和回测预算。
- 管线落点
- 可作为 LLM prompt、taxonomy 或人工研究背景;候选 routes: llm_factor_pipeline。
- 可能增益
- 潜在增益是减少重复 rolling-window 因子、降低 invented field 风险,提高 LLM 因子生成的有效探索率。
进化式 LLM Alpha 因子发现:面向稀疏组合优化的反馈迭代框架
- 把 LLM 因子发现设计成反馈迭代流程
- 连接因子信号和组合选择反馈
- 适合建设带记忆的因子研究系统
- 强调保留、变异和淘汰机制
这项研究用 LLM 自动生成并迭代优化 Alpha 因子,将因子信号和投资组合选择反馈结合起来,形成类似进化搜索的研究流程。它的核心启发是,因子发现不必停留在一次性 prompt 生成,而可以把后续评估反馈用于保留、变异、约束和淘汰候选因子。输入显示该工作面向稀疏组合优化,因此它更关注因子池与组合选择之间的联动,而不仅是单因子表达式质量。由于没有提供具体实验结果、数据或收益数字,结果字段应留空。
- 定位
- 因子生成 / prompt 候选
- 背景
- 一次性生成的 Alpha 因子往往缺少持续改进机制;如果能把评估反馈引入生成过程,因子池可能逐步向更有用的方向演化。
- 逻辑
- 将生成、评估和反馈形成闭环:表现较好的机制被保留,表达形式可以变异;低质量、重复或不合规模式被淘汰;组合选择反馈进一步影响因子池更新。
- 方法
- 使用 LLM 自动生成 Alpha 因子,并通过反馈循环迭代优化因子池,研究目标与稀疏投资组合优化相关。
- 特征工程
- 对高频特征工程的启发是把因子族当作可演化对象:例如保留有效的盘口形态机制,变异其时间尺度、事件时间定义、价格层记忆深度或主动买卖刻画方式;同时淘汰在 OB/SF 数据上反复无效的同质化窗口统计。
- 研究启发
- 可把我们的 discovery -> SFT -> BT 链条改造成进化反馈系统:discovery 负责提出候选,SFT/BT 结果和人工 review 负责评价,经验库记录哪些机制、字段、窗口、sidecar 坐标和表达结构值得保留。下一轮 LLM 生成时,对有效机制做变异,对低质量模式降权,对字段合同和泄露风险加硬约束。这样可以让 LLM 因子生成从离散任务变成持续研究系统,并为 MLP/LGB/Linear 多模型评估提供更有结构的候选池。
- 管线落点
- 可作为 LLM prompt、taxonomy 或人工研究背景;候选 routes: llm_factor_pipeline。
- 可能增益
- 可能让 LLM 因子生成从一次性 prompt 变成带记忆的持续研究系统。
LLM 自动策略发现:风险感知多智能体生成可执行 Alpha 因子
- 多阶段、多智能体自动策略发现框架
- 强调可执行 Alpha 候选而非纯文本想法
- 加入风险感知和评估反馈
- 适合提升研究流程可追溯性
这项研究提出多阶段、多智能体框架,用 LLM 生成可执行 Alpha 候选,并加入风险感知与评估反馈。它值得关注的地方在于把策略发现拆成多个角色和阶段,而不是让一个模型一次性完成从构思到表达式再到评估的全部工作。对于量化研究流程,这类框架的价值主要在于提高候选因子的可执行率、审计可追溯性和风险意识。输入没有给出具体实验数据、回测表现或模型实现细节,因此不能进一步描述其收益结果。
- 定位
- 因子生成 / prompt 候选
- 背景
- 自动策略发现不仅需要生成想法,还需要保证表达式可执行、风险可控、评估流程可追踪。单一 LLM 直接生成策略容易缺少这些约束。
- 逻辑
- 通过多阶段、多智能体分工,将生成、批评、风险感知和评估反馈拆开处理,可以降低无效策略进入后续回测的概率,并让研究流程更容易审计。
- 方法
- 采用 LLM 驱动的多阶段、多智能体策略发现框架,生成可执行 Alpha 候选,并引入风险感知与评估反馈。
- 特征工程
- 对高频数据特征工程的启发是将特征生成和风险审查分离:生成 agent 可以提出订单不平衡、主动买卖、微价格、队列状态、事件时间或横截面状态特征;风险/审计 agent 则检查这些特征是否存在未来信息、过度依赖不可交易状态或与标签构造冲突。
- 研究启发
- 可映射到我们的多 agent 因子发现流程:generator 负责产生 OB/SF/sidecar 因子想法,critic 负责机制和经济含义审查,static analyzer 负责字段合同和语法检查,backtest proxy 负责读取 SFT/BT 反馈,human reviewer 负责最终放行。这样能提升因子代码可执行率,让 LLM 生成、静态分析、回测代理和人工 review 的责任边界更清晰,也能减少人工从零构思的成本。
- 管线落点
- 可作为 LLM prompt、taxonomy 或人工研究背景;候选 routes: llm_factor_pipeline。
- 可能增益
- 潜在增益是提高因子代码可执行率和研究流程可追溯性,减少人工从零构思的成本。
DeXposure-Claw:面向 DeFi 风险监管的智能体系统
- 用预测结果约束 LLM 监管决策
- 显式关注 false-intervention rate
- 将告警、归因和压力情景结构化
- 适合借鉴到 LLM 因子审计与 sidecar 门控
这项研究面向 DeFi 场景中的快速传播、网络化信用风险监管问题。论文指出,通用 LLM agent 不适合直接用于这类高风险决策,因为它们可能过度解读弱证据,并给出代价很高的干预建议;同时,现有评估缺少与监管目标对齐的 false alarm 或 false intervention 衡量方式。DeXposure-Claw 的核心是让 LLM 决策经过结构化证据约束:先由图时间序列 foundation model DeXposure-FM 预测未来 exposure networks,再由确定性监控器和压力情景把预测转成类型化告警、归因信号和情景证据,最后通过数据健康度和置信度门控限制升级动作,输出带有理由的可审计监管工单。论文还提出 DeXposure-Bench 六轴评估框架,其中 decision axis 使用监管对齐的 absolute-loss ground truth 和显式 false-intervention rate 来评分。
- 定位
- 模型训练 / 融合候选
- 背景
- DeFi 风险监管面对的是快速变化、网络连接强的信用风险,通用 LLM agent 容易过度依赖弱证据,并可能产生不合适的高风险干预建议。
- 逻辑
- 论文的逻辑是把 LLM 从直接决策者降级为受结构化预测、确定性监控、压力情景和门控约束的监管工单生成器,从而降低误报和错误干预风险。
- 方法
- 系统包含三层关键流程:DeXposure-FM 作为图时间序列 foundation model 预测未来风险暴露网络;确定性 monitors 和 stress scenarios 将预测结果转成类型化告警、归因信号和场景证据;data-health 和 confidence gates 在升级前进行约束,最终输出可审计的 supervisory tickets 和 rationales。论文还提出 DeXposure-Bench 六轴评估框架,包含面向监管决策的 false-intervention rate。
- 数据
- 实验使用五年 weekly real data。
- 结果
- 摘要称五年 weekly real data 上的实验 fully support the system,但未给出具体数值结果。
- 特征工程
- 这篇论文不是典型高频盘口预测论文,但对特征组织有启发:将原始网络暴露预测转成类型化告警、归因信号、压力场景证据和数据健康度门控。对应高频 OB/SF,可把订单不平衡、主动买卖、微价格、价格层记忆、队列状态、盘口形态和横截面状态从原始特征进一步整理为“证据类型”和“告警类型”,供下游模型或 LLM 审计模块使用。
- 研究启发
- 对我们的 OB/SF/sidecar/MLP/LGB/Linear/LLM 因子管线,最大启发是 forecast-grounded agentic workflow:LLM 不直接决定因子是否上线,而是读取 MLP/LGB/Linear 或图/横截面模型的预测、确定性监控指标、压力测试结果、数据健康度和置信度门控后,生成可审计的因子审查票据。sidecar 可以实现默认关闭的 evidence-gate:例如把因子表现、覆盖率、漂移、横截面异常、尾部损失和 false intervention proxy 统一转成结构化证据,再让 LLM 只做解释、归因和候选升级建议。
- 管线落点
- 优先作为 MLP/LGB/Linear 的训练或融合实验,不直接改变因子数据;候选 routes: llm_factor_pipeline, mlp_codeX。
- 可能增益
- 潜在增益在于提升多 horizon 序列预测稳定性,或改善 MLP/LGB/Linear 对 sidecar/context 特征的吸收方式。
时序预测模型与 LOB
5 条 · 平均分 21.6TLOB / MLPLOB:基于 LOB 数据的 MLP 与双注意力 Transformer 趋势预测
- 同时比较 MLPLOB 与双注意力 Transformer
- 把 MLP 作为强基线而非弱参考
- 适合建立模型复杂度与收益增益的可比审计
- 强调 LOB 多档序列预测的统一实验口径
这项研究用多档限价订单簿序列预测股票价格趋势,并比较简单 MLPLOB 与双注意力 Transformer TLOB。对我们的主要价值不只是 Transformer 架构本身,而是它把 MLP 作为重要强基线来比较,提示在高频 LOB 预测中必须建立等口径模型对照,而不是默认复杂模型一定更优。输入 notes 明确强调应统一输入窗口、label horizon、normalization 和 backtest contract,因此这篇更适合作为模型比较与评估设计参考,而不能从现有输入中外推出具体预测提升或收益改善。
- 定位
- 数据坐标 / sidecar 候选
- 背景
- LOB 序列包含多档盘口状态,可用于股票价格趋势预测;模型复杂度是否带来稳定收益需要和简单基线比较。
- 逻辑
- 在相同 LOB 输入任务下比较简单 MLP 与双注意力 Transformer,有助于分离模型结构增益和数据、标签、归一化、回测口径差异。
- 方法
- 使用多档 LOB 序列进行股票价格趋势预测,并比较 MLPLOB 与双注意力 Transformer TLOB。
- 数据
- 多档限价订单簿序列数据。
- 特征工程
- 输入没有给出具体人工特征,但该研究提示 LOB 特征组织方式很重要:多档价量、买卖两侧、时间窗口需要在 MLP 和 Transformer 中保持同口径输入,避免特征差异污染模型比较。
- 研究启发
- 适合用于设计 MLP/GRU/Transformer 的等口径对照实验:固定输入窗口、label horizon、normalization、训练样本、回测 contract,再比较档位维 attention、时间维 attention 和轻量 MLP baseline。对 mlp_codeX 可作为结构升级路线参考;对 LLM 因子管线,则可把注意力维度拆成“价格层交互”“时间依赖”“买卖侧不对称”等可生成因子族。
- 管线落点
- 优先判断是否能成为 OB 1s exact-axis sidecar;候选 routes: mlp_codeX, llm_factor_pipeline。
- 可能增益
- 可为 mlp_codeX 增加模型结构改进路线:档位维 attention、时间维 attention、轻量 MLP baseline、以及模型复杂度与收益增益的可比审计。
LiT:用结构化 patch 建模限价订单簿的空间与时间依赖
- 用结构化 patch 表示 LOB
- 同时建模空间层级和时间依赖
- 避免简单展平多档盘口列
- 适合作为 MLP 结构升级方向
LiT 面向高频限价订单簿短期市场运动预测,强调用结构化 patch 和 Transformer 建模订单簿的空间层级与时间依赖。它的关键启发是不要把 10 档盘口、价量层级、买卖两侧和时间窗口简单展平成一组列,而是保留 LOB 的局部结构:价格层相对位置、bid/ask 不对称、局部盘口形态和时间演化都应在模型输入中有明确组织。输入没有提供实验结果,因此不能判断其相对 MLP 或其他 Transformer 的实际提升。
- 定位
- 数据坐标 / sidecar 候选
- 背景
- LOB 短期市场运动预测需要同时处理价格层级、买卖两侧和时间窗口中的依赖关系。
- 逻辑
- 通过结构化 patch 保留订单簿空间层级和时间依赖,让 Transformer 更有针对性地吸收 LOB 的局部形态和跨时间变化。
- 方法
- 使用结构化 patch 和 Transformer 对高频 LOB 的空间层级与时间依赖进行建模。
- 数据
- 高频限价订单簿数据;输入中特别提到 10 档盘口、价量层级、买卖两侧和时间窗口可被拆成结构化 patch。
- 特征工程
- 可将 10 档盘口、价格层、挂单量、买卖两侧、时间窗口组织为结构化 patch,显式保留价格层相对位置、bid/ask 不对称和局部盘口形态,而不是把所有列直接展平。
- 研究启发
- 对 MLP 时序预测管线,LiT 提示可以先做输入结构升级:构造档位维 patch、买卖侧 patch、时间维 patch,再比较 MLP、轻量 attention 和 Transformer。对 LLM 因子生成,可把结构化 patch 拆解为可解释因子族,例如局部盘口形态、档位不对称、近端与远端队列状态、时间窗口内形态迁移。
- 管线落点
- 优先判断是否能成为 OB 1s exact-axis sidecar;候选 routes: llm_factor_pipeline, mlp_codeX。
- 可能增益
- 可能改善模型对价格层相对位置、bid/ask 不对称、局部盘口形态的吸收,适合作为 MLP 结构升级方向。
Deep Limit Order Book Forecasting:深度限价订单簿预测与 LOBFrame 基准
- 使用 LOBFrame 处理大规模 LOB 数据
- 关注 NASDAQ 中间价变化预测
- 指出高预测指标不等于可交易信号
- 提示传统 ML 指标不足以评价 LOB 预测
这项研究使用 LOBFrame 处理大规模限价订单簿数据,并比较深度模型对 NASDAQ 股票中间价变化的预测能力。最值得关注的结论是:高预测指标不一定等于可交易信号,传统机器学习指标不足以评价 LOB 预测。对高频研究而言,这比单纯模型排名更重要,因为 LOB 预测的离线准确率、分类指标或 IC 提升,可能无法覆盖成交概率、交易方向完整性、执行成本和可操作性。输入没有给出具体模型细节或数值结果,因此只保留其评估口径启发。
- 定位
- 数据坐标 / sidecar 候选
- 背景
- 大规模 LOB 数据可用于中间价变化预测,但离线预测指标与真实可交易性之间可能存在断裂。
- 逻辑
- 通过 LOBFrame 处理大规模订单簿数据并比较深度模型预测能力,同时指出传统 ML 指标不足以判断 LOB 预测是否能转化为交易信号。
- 方法
- 使用 LOBFrame 处理大规模限价订单簿数据,并比较深度模型对 NASDAQ 股票中间价变化的预测能力。
- 数据
- NASDAQ 股票的大规模限价订单簿数据。
- 结果
- 输入只说明重要结论是高预测指标不一定等于可交易信号,传统 ML 指标不足以评价 LOB 预测;没有提供具体数值结果。
- 特征工程
- 这篇对特征工程的启发不在新增某个盘口变量,而在评估特征是否可交易:订单不平衡、微价格、盘口形态或队列状态即使提升预测指标,也需要进一步检验是否能形成完整交易方向、是否有成交机会、是否能覆盖执行摩擦。
- 研究启发
- 应把 MLP/GRU/CNN/Transformer 训练评估从单一 IC、分类准确率或 loss 扩展到 operational metrics,例如交易可执行性、成交概率、预测方向完整性和回测 contract 一致性。对 Linear/LGB/MLP 对照,也可用这篇作为审计基准:离线指标提升必须进一步解释为何能或不能转化为收益。
- 管线落点
- 优先判断是否能成为 OB 1s exact-axis sidecar;候选 routes: llm_factor_pipeline。
- 可能增益
- 可帮助解释为什么模型离线指标提升不一定转化为收益,并为 MLP/Linear/LGB 对照建立更合理的验证口径。
GRU/LSTM/Transformer 金融趋势预测对照:轻量序列模型基线参考
- 提供 LSTM/GRU/Transformer 模型家族对照
- GRU 可作为轻量路径记忆 baseline
- 适合检验短窗口盘口状态延续价值
- 需要在相同切分和交易评估下比较
这项研究比较 LSTM、GRU 和 Transformer 在金融趋势预测任务中的表现。虽然输入说明其标的和频率未必与我们的高频盘口任务一致,但它适合作为模型家族对照提醒:在 MLP 之外,轻量序列模型仍值得作为路径记忆 baseline。尤其是 GRU 参数量通常比 Transformer 更小,又比纯 MLP 更能表达短序列状态延续,因此可用于评估 120 tick 等窗口内的盘口路径信息是否有增量价值。输入没有提供具体实验结论或收益数字,因此不能写结果。
- 定位
- 模型训练 / 融合候选
- 背景
- 金融趋势预测常见模型包括 LSTM、GRU 和 Transformer;不同模型对路径记忆、参数规模和训练成本的取舍不同。
- 逻辑
- 如果纯 MLP 只能处理固定窗口特征的静态映射,那么 GRU/LSTM/Transformer 可以作为序列建模对照,用来检验短期状态延续是否对预测有帮助。
- 方法
- 比较 LSTM、GRU 和 Transformer 模型在金融趋势预测任务中的应用。
- 数据
- 输入未提供具体标的、频率或数据集,只说明研究任务是金融趋势预测。
- 特征工程
- 对高频特征工程的启发是保留路径顺序,而不是只把 120 tick 内的信息压成聚合统计。GRU baseline 可直接吸收订单不平衡、主动买卖、微价格、队列状态和成交节奏的时间演化,用于检验路径记忆是否优于静态窗口特征。
- 研究启发
- 可用于 mlp_codeX 的低成本模型扩展:在相同数据切分、相同 OB/SF/sidecar 输入、相同标签和相同交易评估下,比较 MLP、GRU、TCN、small Transformer、LGB 和 Linear。重点不是追求复杂模型,而是建立公平的序列 baseline,判断 120 tick 内的状态延续、事件时间和盘口形态变化是否真的带来可交易增量。
- 管线落点
- 优先作为 MLP/LGB/Linear 的训练或融合实验,不直接改变因子数据;候选 routes: mlp_codeX。
- 可能增益
- 可用于 mlp_codeX 的低成本模型扩展:MLP vs GRU vs TCN vs small Transformer,在相同数据切分和交易评估下比较。
LENS:面向金融时序的预训练 Transformer 基础模型
- 面向金融时序的预训练 Transformer
- 关注低信噪比和高随机性问题
- 启发 OB/SF/sidecar 自监督预训练
- 可作为监督预测前的状态表示学习方向
LENS 提出面向金融时序的预训练 Transformer,关注金融数据低信噪比、高随机性以及大规模预训练框架。它的主要价值不在于某个单一监督预测任务,而在于提示我们:金融时序模型可以先通过自监督或预训练方式学习状态空间,再迁移到具体预测标签。对于高频盘口研究,这一点尤其重要,因为 OB/SF/sidecar 数据中存在丰富的状态结构,例如盘口形态、成交节奏、队列变化和跨股票共性,这些信息未必能被单一监督标签充分利用。输入未提供具体数据集和实验结果,因此结果字段留空。
- 定位
- 模型训练 / 融合候选
- 背景
- 金融时序具有低信噪比和高随机性,直接用监督标签训练模型可能难以充分学习稳定的状态表示。
- 逻辑
- 通过面向金融时序的大规模预训练,模型可以先学习市场状态和序列结构,再服务于下游趋势预测或收益预测任务。
- 方法
- 提出用于金融时序探索的预训练 Transformer 框架,强调大规模预训练和金融时序表示学习。
- 数据
- 输入仅说明研究对象是金融时序,没有提供具体数据集细节。
- 特征工程
- 对高频特征工程的启发是把 OB/SF/sidecar 序列作为预训练对象,而不只作为监督模型的输入。可围绕 mask reconstruction、next-state prediction、contrastive state matching 等任务学习订单不平衡、微价格、价格层记忆、队列状态、成交时长和事件时间结构。
- 研究启发
- 可以在我们的 OB/SF/sidecar 数据上尝试自监督预训练:用盘口状态重建、下一状态预测、跨股票相似状态对比、事件时间顺序恢复等任务学习通用表示,再将表示输入 MLP、GRU、Transformer、LGB 或 Linear 模型。这样有机会让模型先理解盘口状态空间和横截面共性,而不是完全依赖监督 label 的弱信号。
- 管线落点
- 优先作为 MLP/LGB/Linear 的训练或融合实验,不直接改变因子数据;候选 routes: mlp_codeX。
- 可能增益
- 潜在增益在于让 MLP/GRU/Transformer 不只依赖监督 label,而先学习盘口状态空间和跨股票共性表示。
订单簿表示与逐笔数据
1 条 · 平均分 27.0基于注意力的限价订单簿阅读、突出与预测
- 从中间价预测扩展到整本订单簿预测
- 强调多层价格和数量的联合演化
- 适合作为盘口重建辅助任务
- 有助于学习 book-shape 表征
该研究使用 seq2seq 模型预测多层限价订单簿的价格和数量,而不只是预测中间价方向。其研究问题从常见的 mid-price movement classification 扩展到订单簿 next-state 或 book-shape forecasting,即模型需要理解多档价格与数量的联合演化。输入未提供具体模型结构细节、数据集或实验结果,因此不补写性能结论。对高频预测研究的价值在于,它提示我们可以把盘口状态重建作为辅助任务,让模型学习盘口形态、深度分布和价格层动态,而不是只围绕单一收益标签训练。
- 定位
- 数据坐标 / sidecar 候选
- 背景
- 许多 LOB 研究以中间价方向预测为目标,但这种目标可能只利用了订单簿状态的一部分信息,难以完整约束模型学习多层盘口的形态变化。
- 逻辑
- 如果模型能够预测多层 LOB 的价格和数量,它可能更好地学习盘口状态演化、流动性变化和供需压力结构;这些表征可辅助短 horizon return label 的弱信号学习。
- 方法
- 输入说明研究使用 seq2seq 模型预测多层 LOB 的价格和数量,并强调 attention-based reading、highlighting 与 forecasting。
- 数据
- 输入仅说明数据对象为多层限价订单簿;未提供具体市场、样本、频率或档位数量细节。
- 特征工程
- 启发是将订单簿特征从静态 snapshot 或简单 imbalance 扩展到 next-state/book-shape reconstruction。可关注多档价格层、挂单数量、盘口形态、深度斜率、价格层记忆、队列状态和未来盘口重建误差。
- 研究启发
- 在我们的 OB/MLP 管线中,可把预测目标从短期 return 扩展为多任务:主任务预测收益或方向,辅助任务预测下一时点盘口价格、数量或形态摘要。对 LGB/Linear,可从重建任务中提取 book-shape residual、未来深度变化 proxy 或微价格偏移特征;对 LLM 因子管线,可生成围绕盘口形态演化、价格层记忆和重建误差的候选因子。
- 管线落点
- 优先判断是否能成为 OB 1s exact-axis sidecar;候选 routes: mlp_codeX, llm_factor_pipeline。
- 可能增益
- 可能提升模型对盘口状态演化的理解,辅助短 horizon return label 的弱信号学习。
评估审计与风险控制
2 条 · 平均分 16.0双分支自监督学习识别市场操纵:融合频域异常合成与领域特征
- 针对操纵检测的自监督框架
- 结合微观结构特征和频域异常合成
- 双分支对比网络处理边界模糊
- 可用于因子回测异常审计
该论文提出 SD-FMM,一个面向金融市场操纵检测的自监督框架,针对操纵信号隐蔽、标注数据稀缺和边界模糊三个挑战。框架包含三个部分:Amplification Component 基于市场微观结构理论提取并融合领域特征,用于放大细微操纵信号;Synthesis Component 通过少样本学习和基于离散小波变换的动态频率分析生成现实感合成异常,以缓解标签稀缺;Detection Component 使用双分支对比检测神经网络,同时建模局部对比边界和整体时间依赖。论文在 25 个中国股票市场操纵案例的专有数据集和 338 个加密货币 pump-and-dump 公共基准上评估,并报告相对多种基线的显著优势。该研究更偏风控、审计和异常检测,但对高频因子管线也有启发:异常状态、操纵风险和频域异常合成可以作为因子评估与样本过滤的补充,而不应直接等同于收益预测 alpha。
- 定位
- 评估审计 / 可比性候选
- 背景
- 金融市场操纵检测面临信号隐蔽、操纵样本稀缺和正常/异常边界模糊的问题,传统监督学习容易受到标签不足和边界不清的限制。
- 逻辑
- 论文逻辑是先用市场微观结构领域特征放大潜在操纵信号,再通过频域分析和少样本机制合成异常样本,最后用双分支对比网络同时增强局部边界敏感性和整体时间依赖建模能力。
- 方法
- 方法包括三个组件:基于市场微观结构理论的领域特征融合与信号放大;使用离散小波变换进行动态频率分析并生成合成异常;使用双分支对比检测神经网络进行局部对比学习和时间依赖建模。
- 数据
- 论文使用一个新收集的 25 个中国股票市场操纵案例专有数据集,以及一个包含 338 个加密货币 pump-and-dump 方案的公共基准。
- 结果
- 论文报告 SD-FMM 相比 12 个先进基线表现更优。在股票数据集上,平均精度指标相对第二好基线提升 47.61%,误报率降低 47.46%,平均检测延迟缩短 25.05%。在加密货币数据集上,Hit Rate@3 为 83.13%,Hit Rate@20 为 97.93%。
- 特征工程
- 高频特征工程启发在于将微观结构特征用于异常信号放大,并引入频域异常、局部边界和时间依赖视角。可关注异常订单不平衡、异常主动买卖、盘口形态突变、成交节奏变化、事件时间压缩、价格层堆积与撤单模式等操纵相关状态。
- 研究启发
- 在我们的 OB/SF/sidecar/MLP/LGB/Linear/LLM 因子管线中,该研究更适合作为风险控制和评估审计 sidecar:为样本增加操纵风险、异常频域状态或市场微观结构异常标记,辅助过滤不稳定训练样本、解释异常回测收益、审计高收益因子是否依赖异常市场状态。LLM 因子生成可借鉴其领域特征放大思路,但需要把操纵检测目标与收益预测目标分开,避免把风控异常标签误当作可交易 alpha。
- 管线落点
- 优先进入审计/评估方法库,服务 baseline 可比性和 SFT/BT 可信度;候选 routes: backtest_audit, linear_codeX, llm_factor_pipeline。
- 可能增益
- 潜在增益是减少操纵/异常事件对训练和回测结论的污染,提升 tail 风险控制。
金融科技系统中的自适应风险评估:基于强化学习的连续策略优化
- 将实时风险评分建模为连续动作 MDP
- 强调在线学习与推理服务解耦的生产架构
- 面向概念漂移和不中断更新的风险系统
- 流式交易与行为事件可启发高频状态特征设计
这项研究关注金融科技系统中的实时风险评估问题,核心挑战是高吞吐、低延迟的信息流中,风险评分需要能适应概念漂移,并且模型更新不能中断线上服务。论文将风险评估建模为连续动作 Markov Decision Process,提出 ARL-CPO,通过流式交易、行为事件和结果驱动的奖励反馈持续优化策略。除了算法本身,论文还强调可部署的软件架构:将在线学习与推理服务拆开,用推理微服务承接线上决策,同时通过异步更新循环持续更新模型,避免依赖周期性批量重训。适用边界上,该方法更偏向需要连续反馈、风险状态会随环境变化而变化的实时系统;如果缺少稳定的结果反馈或奖励定义,强化学习式持续优化的收益和安全性需要额外验证。
- 定位
- 模型训练 / 融合候选
- 背景
- FinTech 风险系统需要在实时、高容量、低延迟的信息流中做风险评估,并且要对概念漂移具备鲁棒性,同时支持不中断服务的模型更新。
- 逻辑
- 论文的逻辑是把风险评分从一次性监督学习预测,转成带有状态、动作和长期反馈的连续策略优化问题;当交易和行为分布发生变化时,系统可通过结果反馈不断修正风险策略,而不是等待离线批量重训。
- 方法
- 方法上提出 ARL-CPO,将风险评估建模为连续动作 MDP,基于流式交易、行为事件和 outcome-driven reward feedback 持续优化策略;架构上将在线学习与推理服务分离,由 inference microservice 提供低延迟服务,异步更新循环负责持续更新模型。
- 数据
- 论文评估了信用违约预测和自适应资产配置任务,使用由自定义 FinTech 环境模拟器生成的 850 万条信用记录大数据集。
- 结果
- 论文报告 ARL-CPO 与 Random Forest、Gradient Boosting 和 Transformer 基线比较,在 precision 和 F1 等指标下表现更优,并给出 97.4% 分类准确率、98.8% 趋势适应率和 96.1% 累积长期表现指数。
- 特征工程
- 对高频特征工程的启发在于,风险评分可从静态样本特征转向流式事件状态表示:交易事件、行为事件、结果反馈都可类比为事件时间序列输入。映射到 OB/SF 场景时,可考虑把订单不平衡、主动买卖、微价格偏离、价格层记忆、队列状态变化和成交时长等事件特征组织成可被在线策略更新消费的状态,而不是只做固定窗口聚合。
- 研究启发
- 对我们的 OB/SF/sidecar/MLP/LGB/Linear/LLM 因子管线,主要启发不是直接套用强化学习收益数字,而是架构思路:将低延迟推理与异步学习更新解耦。OB/SF 高频因子可以作为状态输入,MLP 或 Linear 承担轻量时序预测,LGB 做融合筛选;sidecar 可以默认关闭地接入“漂移响应/策略更新”实验,专门观察分布变化后因子权重、门控阈值或模型输出是否需要自适应调整。LLM 因子管线也可借鉴 outcome-driven reward feedback,把因子发现后的 SFT/BT 结果作为后验反馈,但需要严格避免把未来结果泄漏到线上状态。
- 管线落点
- 优先作为 MLP/LGB/Linear 的训练或融合实验,不直接改变因子数据;候选 routes: lgb_codeX, mlp_codeX。
- 可能增益
- 潜在收益不是直接提高 raw IC,而是减少状态不适配时期的尾部损失和 SFT/BT 不稳定。
高频数据特征工程
5 条 · 平均分 29.4中信建投:从分钟频到 Level2 的市场微观结构探索
- 从分钟频因子扩展到 Level2 行为特征
- 强调微观结构变化会影响历史规律一致性
- 关注成交量、大单买入笔数和主动买卖金额
- 适合沉淀为中文 LLM 高频因子机制模板
这篇券商微观结构研究系统整理了分钟频高频因子挖掘和 Level2 数据应用经验,核心关注点是市场微观结构变化会削弱或改变历史统计规律的一致性,因此高频 Alpha 不能只依赖稳定的历史相关性,还需要结合成交行为和盘口状态解释。输入 notes 明确提到文章用成交量、大单买入笔数、主动买卖金额等指标解释高频 Alpha,说明其价值主要在于把分钟频统计因子推进到更细的 Level2 行为维度,并为中文市场的高频特征工程提供机制模板。适用边界是:这里只能确认其强调 Level2 指标和微观结构变化,不能据此推断具体收益、回测表现或完整模型结构。
- 定位
- 高频数据特征工程候选
- 背景
- 市场微观结构变化会影响历史统计规律的一致性,高频因子需要结合更细粒度的交易和盘口行为解释。
- 逻辑
- 通过成交量、大单买入笔数、主动买卖金额等 Level2 相关指标刻画资金行为和 order-flow interaction,用这些行为变量解释高频 Alpha 的来源。
- 方法
- 系统整理分钟频高频因子挖掘与 Level2 数据应用经验,并围绕成交量、大单买入笔数、主动买卖金额等指标展开分析。
- 数据
- 分钟频高频数据与 Level2 数据;输入中明确涉及成交量、大单买入笔数、主动买卖金额等指标。
- 特征工程
- 对高频特征工程的直接启发是把普通分钟频量价变量扩展为 Level2 行为变量,例如主动买卖金额、大单买入笔数、成交量与盘口状态的交互。它也提示要关注市场微观结构变化导致的统计规律漂移,避免把历史上有效的 rolling 统计直接迁移到新结构下使用。
- 研究启发
- 与 OB/SF 预测管线高度契合:可以把 Level2 指标对、主动买卖同步性、大单交易行为、分钟频到秒级状态迁移纳入 sidecar taxonomy。对 LLM 因子生成来说,这类中文微观结构研究可作为机制模板;对 MLP/LGB/Linear 侧,可以构造更可解释的 order-flow interaction 特征,并在同一 label horizon 与 normalization 下做可比审计。
- 管线落点
- 优先进入高频 feature pool / sidecar taxonomy,同时服务 LGB/Linear/MLP 和 LLM factor prompt;候选 routes: llm_factor_pipeline, hft_feature_engineering。
- 可能增益
- 可能为 LLM 因子生成提供中文机制模板,也能帮助 MLP/LGB 侧构造更可解释的 order-flow interaction 特征。
国信证券:高频订单成交数据中的 Alpha 信息
- 从逐笔成交中拆解订单大小和成交时长
- 提出大单交易占比与漫长订单交易占比
- 适合构造成 Stream/OB sidecar 字段
- 比普通成交量 rolling 更接近真实交易行为
这篇报告围绕逐笔成交数据挖掘高频 Alpha 信息,从订单大小、成交时长、成交时间、出价高低等维度构造因子,并提出大单交易占比、漫长订单交易占比以及复合因子框架。它的价值在于把成交数据从简单成交量 rolling 拆解为更细的行为状态:订单大小反映交易强度,成交时长可能对应流动性消耗或等待成本,成交时间与高低价属性则可捕捉日内阶段和价格位置差异。现有输入没有提供具体收益数字或回测结果,因此结果字段留空。
- 定位
- 高频数据特征工程候选
- 背景
- 逐笔成交数据中包含比普通成交量更细的交易行为信息,可能用于解释或构造高频 Alpha。
- 逻辑
- 从订单大小、成交时长、成交时间、出价高低等维度刻画交易行为,并通过大单交易占比、漫长订单交易占比和复合因子框架提取 Alpha 信息。
- 方法
- 基于逐笔成交数据构造订单大小、成交时长、成交时间、出价高低相关因子,并组合为大单交易占比、漫长订单交易占比等复合框架。
- 数据
- 逐笔成交数据;输入明确涉及订单大小、成交时长、成交时间、出价高低等字段或维度。
- 特征工程
- 这篇对高频特征工程很直接:可把成交量拆成订单大小分布、大单占比、成交耗时、成交时间段、高低价成交属性等行为特征。相比普通 rolling volume,这些变量更接近拆单、被动吸收、流动性消耗和延迟成交状态。
- 研究启发
- 可直接映射到 Stream/OB sidecar:订单大小、成交耗时、早尾盘属性、高低价属性可以成为可审计字段,也可转化为 LLM 因子模板。对 MLP/LGB/Linear,可用这些字段构造主动成交、成交时长、订单大小与盘口状态的交互项;对 SF/OB 预测,可用来识别被动吸收、拆单和短时流动性消耗。
- 管线落点
- 优先进入高频 feature pool / sidecar taxonomy,同时服务 LGB/Linear/MLP 和 LLM factor prompt;候选 routes: hft_feature_engineering, llm_factor_pipeline, data_processing_sidecar。
- 可能增益
- 可能提供比普通成交量 rolling 更细的行为分解,帮助识别拆单、被动吸收、流动性消耗和延迟成交状态。
开源证券订单流系列:挂单方向长期记忆性的讨论与应用
- 关注挂单方向长期记忆
- 区分靠近盘口和远离盘口委托
- 可映射到 PriceLevelMemory 和 PathMemory
- 为 jump decay 与路径型因子提供机制依据
这篇报告利用逐笔委托数据研究挂单方向是否存在长期记忆,讨论订单方向自相关、拆单行为,以及靠近盘口和远离盘口委托之间的差异。其核心启发是:订单流不能只看当前盘口快照,还要看历史挂单方向在不同价格层上的延续、衰减和位置差异。对于高频预测,这类长期记忆机制可能比简单 rolling 统计更接近真实订单行为,尤其适合转化为 PriceLevelMemory、PathMemory、jump decay 等 sidecar 结构。输入没有给出具体实证结果或收益数字,因此不写结果。
- 定位
- 高频数据特征工程候选
- 背景
- 逐笔委托中的挂单方向可能存在长期记忆,且不同价格层、不同距离盘口位置的委托行为可能不同。
- 逻辑
- 通过研究订单方向自相关、拆单行为、靠近盘口与远离盘口委托差异,刻画挂单方向在时间和价格层上的延续性。
- 方法
- 利用逐笔委托数据分析挂单方向长期记忆、订单方向自相关、拆单行为以及不同盘口距离委托的差异。
- 数据
- 逐笔委托数据。
- 特征工程
- 最直接的特征工程启发是构造价格层记忆和路径记忆:记录不同价格层上买卖挂单方向的持续性、衰减速度、靠近盘口与远离盘口委托的行为差异,以及拆单导致的方向自相关。
- 研究启发
- 非常适合转化为 PriceLevelMemory / PathMemory sidecar:不仅看当前 bid/ask 和队列状态,还看历史挂单方向在不同价格层的延续性和衰减方式。对 OB/SF 预测、LLM 因子生成和 LGB/Linear 特征输入都很有价值,尤其可为 PLM、jump decay、path memory 提供中文实证机制,避免继续生成普通 rolling 类因子。
- 管线落点
- 优先进入高频 feature pool / sidecar taxonomy,同时服务 LGB/Linear/MLP 和 LLM factor prompt;候选 routes: data_processing_sidecar, hft_feature_engineering, llm_factor_pipeline。
- 可能增益
- 可能为当前 PLM、jump decay、path memory 提供中文实证机制,帮助 LLM 生成更贴近订单行为而非普通 rolling 的候选因子。
开源证券:市场微观结构观察与2023年以来的高频因子回顾
- 从市场状态而非单票滚动量价理解高频因子
- 关注早盘集中度、盘口筹码和程序化交易比例
- 适合建设 market-state/context sidecar
- 可用于识别流动性和容量 regime shift
该报告围绕 A 股市场微观结构变化做观察,并回顾 2023 年以来若干高频因子方向。输入信息显示,报告关注早盘交易集中度、单笔委托金额、订单簿筹码充足率、程序化交易比例等维度,这些变量不是传统单股票滚动量价特征,而更接近市场交易环境、流动性状态和订单簿承载能力的刻画。报告还提到高维记忆、强反转、彩票委托等高频因子表现回顾,但输入未给出具体收益、IC 或分组结果,因此不展开结果判断。适用边界上,这类研究更适合作为高频状态建模和 regime 条件化的素材,而不是直接照搬成单一 alpha 公式。
- 定位
- 数据坐标 / sidecar 候选
- 背景
- A 股高频因子在 2023 年以来持续演化,单纯依赖传统量价滚动统计可能难以刻画早盘交易集中、流动性变化、订单簿筹码状态和程序化交易参与度等市场微观结构条件。
- 逻辑
- 核心逻辑是把高频因子的有效性放在市场微观结构状态中理解:交易集中度、委托金额、订单簿筹码充足率和程序化交易比例等变量可能影响冲击成本、成交压力、拥挤程度和因子容量,从而改变高频信号的稳定性。
- 方法
- 报告以微观交易特征观察和既有高频因子回顾为主,从早盘交易集中度、单笔委托金额、订单簿筹码充足率、程序化交易比例等角度分析 A 股交易结构,并回顾高维记忆、强反转、彩票委托等因子。
- 数据
- 输入仅说明研究对象为 A 股微观交易特征,涉及早盘交易、单笔委托、订单簿和程序化交易相关信息;未提供具体样本区间、股票池或数据频率细节。
- 特征工程
- 对高频特征工程的启发在于将市场活跃度、订单簿厚度、筹码充足率、冲击成本、撤单率和程序化交易比例设计为 market-state/context sidecar,而不是只在单票层面做 rolling 量价统计。尤其适合刻画放量、拥挤、流动性改善或容量变化等 regime shift。
- 研究启发
- 在我们的 OB/SF/sidecar/MLP/LGB/Linear/LLM 因子管线中,可把这些微观结构观察转化为默认关闭的 market-state sidecar:为每个时点或交易阶段提供市场活跃度、盘口厚度、冲击成本、程序化交易比例等上下文。LLM 因子生成时可把这些状态作为条件,筛选在不同 market regime 下更稳定的候选因子;MLP/LGB/Linear 侧可将其作为交互项、分段条件或样本权重条件,用于减少跨市场阶段的漂移。
- 管线落点
- 优先判断是否能成为 OB 1s exact-axis sidecar;候选 routes: llm_factor_pipeline。
- 可能增益
- 可能提升因子在不同市场阶段的稳定性,尤其是识别放量、拥挤、流动性改善或高频策略容量变化时的 regime shift。
国信金工:基于主动买卖特征的高频订单因子改进
- 把逐笔成交拆成主动买卖方向
- 比较委托时间法与成交价格法
- 适合构建 trade-flow sidecar
- 可提升短 horizon 信号解释性
该研究聚焦逐笔成交中的主动买卖方向识别,比较基于委托时间和基于成交价格的划分方法,并讨论不同主动成交方向对未来收益的差异。它的重点不是简单使用成交量或价格变化,而是将 trade flow 拆解为主动买入、主动卖出及其识别方法差异,从而增强高频订单因子的解释性。输入未提供具体因子表现或收益数字,因此结果部分留空。对高频预测而言,该研究值得看的地方在于它把成交流方向、主动强度和识别可靠度作为单独信息层,适合进入短 horizon return、盘口变化或事件时间预测任务。
- 定位
- 高频数据特征工程候选
- 背景
- 逐笔成交数据中,成交量本身不足以区分交易压力来源;主动买卖方向识别可以帮助判断成交是由买方主动冲击还是卖方主动冲击产生。
- 逻辑
- 核心逻辑是主动成交方向可能包含未来短期收益的信息,不同方向识别方法会影响信号定义和稳定性,因此需要比较基于委托时间与基于成交价格的划分方式,并进一步分析方向差异对预测的影响。
- 方法
- 研究比较主动买卖方向的不同识别方法,包括基于委托时间和基于成交价格的划分,并围绕不同主动成交方向构造或改进高频订单因子。
- 数据
- 输入仅说明使用逐笔成交信息,并涉及委托时间与成交价格;未给出具体市场、样本区间或股票池细节。
- 特征工程
- 可将成交流拆成主动/被动、方向/强度、方法置信度三层特征。对每笔或每个时间桶,可增加主动买入强度、主动卖出强度、主动净流入、方向识别一致性、识别方法冲突标记等字段,并把方法一致性作为 gate 或权重。
- 研究启发
- 在我们的 OB/SF/sidecar/MLP/LGB/Linear/LLM 管线中,这篇研究适合转化为 trade-flow sidecar。OB 管线可将主动买卖强度与盘口队列、微价格、价差和深度变化联动;SF/MLP/LGB/Linear 可把主动方向、主动净额、方向可靠度作为短 horizon 特征;LLM 因子生成可要求候选表达显式区分主动冲击和被动成交,并对委托时间法与成交价格法的一致性设置静态检查或数据 gate。
- 管线落点
- 优先进入高频 feature pool / sidecar taxonomy,同时服务 LGB/Linear/MLP 和 LLM factor prompt;候选 routes: hft_feature_engineering, data_processing_sidecar, llm_factor_pipeline。
- 可能增益
- 潜在增益在于把 trade flow 从简单量价序列拆成主动/被动、方向/强度、方法置信度三层,提高短 horizon 预测解释性。
高分来源条目
| # | 分数 | 标题 | 日期 | 研究轴 | 管线落点 |
|---|---|---|---|---|---|
| 1 | 34 | 中信建投:从分钟频到 Level2 的市场微观结构探索 Curated Chinese Broker Microstructure Research | 2025-12-17 | 因子生成 / 表示学习, 高频特征工程, 数据坐标 / 高频状态 | LLM 因子生成, 高频数据特征工程 |
| 2 | 32 | TLOB / MLPLOB:基于 LOB 数据的 MLP 与双注意力 Transformer 趋势预测 Curated Model and Financial Time-Series Research | 2025-02-21 | 模型训练 / 序列预测, 数据坐标 / 高频状态, 评估审计 / 可比性 | MLP 时序预测, LLM 因子生成 |
| 3 | 29 | 国信证券:高频订单成交数据中的 Alpha 信息 Curated Chinese Broker Microstructure Research | 2024-01-08 | 因子生成 / 表示学习, 高频特征工程, 数据坐标 / 高频状态 | 高频数据特征工程, LLM 因子生成, 数据 sidecar / 高频衍生数据 |
| 4 | 29 | Deep Limit Order Book Forecasting:深度限价订单簿预测与 LOBFrame 基准 Curated Model and Financial Time-Series Research | 2024-03-14 | 数据坐标 / 高频状态, 模型训练 / 序列预测, 因子生成 / 表示学习 | LLM 因子生成 |
| 5 | 29 | 开源证券订单流系列:挂单方向长期记忆性的讨论与应用 Curated Chinese Broker Microstructure Research | 2024-06-09 | 数据坐标 / 高频状态, 高频特征工程 | 数据 sidecar / 高频衍生数据, 高频数据特征工程, LLM 因子生成 |
| 6 | 29 | LiT:用结构化 patch 建模限价订单簿的空间与时间依赖 Curated Model and Financial Time-Series Research | 2025-10-01 | 数据坐标 / 高频状态, 模型训练 / 序列预测 | LLM 因子生成, MLP 时序预测 |
| 7 | 28 | 开源证券:市场微观结构观察与2023年以来的高频因子回顾 Curated Chinese Broker Microstructure Research | 2025-08-06 | 因子生成 / 表示学习, 数据坐标 / 高频状态 | LLM 因子生成 |
| 8 | 27 | 国信金工:基于主动买卖特征的高频订单因子改进 Curated Chinese Broker Microstructure Research | 2024-08-20 | 高频特征工程, 数据坐标 / 高频状态, 因子生成 / 表示学习 | 高频数据特征工程, 数据 sidecar / 高频衍生数据, LLM 因子生成 |
| 9 | 27 | 基于注意力的限价订单簿阅读、突出与预测 Curated Model and Financial Time-Series Research | 2024-09-03 | 模型训练 / 序列预测, 数据坐标 / 高频状态 | MLP 时序预测, LLM 因子生成 |
| 10 | 23 | 双分支自监督学习识别市场操纵:融合频域异常合成与领域特征 OpenAlex Semantic Works Search | 2026-06-08 | 评估审计 / 可比性, 模型训练 / 序列预测, 数据坐标 / 高频状态 | 回测与可比性审计, Linear/Ridge baseline, LLM 因子生成 |
| 11 | 21 | Chain-of-Alpha:基于 LLM 的自动公式化 Alpha 挖掘框架 Curated AI Factor Generation and Backtest Method Research | 2025-08-01 | 因子生成 / 表示学习, 评估审计 / 可比性 | LLM 因子生成, 回测与可比性审计 |
| 12 | 20 | LLM + 进化优化的稳健特征工程:从手工因子到自动特征发现 Curated AI Factor Generation and Backtest Method Research | 2025-01-01 | 因子生成 / 表示学习, 高频特征工程 | LLM 因子生成, 高频数据特征工程 |
| 13 | 20 | FactorMAD:基于 LLM 多智能体辩论的可解释 Alpha 因子挖掘 Curated AI Factor Generation and Backtest Method Research | 2025-11-01 | 因子生成 / 表示学习 | LLM 因子生成 |
| 14 | 19 | AlphaAgent:带正则化探索的 LLM Alpha 挖掘 Curated AI Factor Generation and Backtest Method Research | 2025-02-24 | 因子生成 / 表示学习 | LLM 因子生成 |
| 15 | 19 | 进化式 LLM Alpha 因子发现:面向稀疏组合优化的反馈迭代框架 Curated AI Factor Generation and Backtest Method Research | 2025-11-01 | 因子生成 / 表示学习 | LLM 因子生成 |
| 16 | 17 | LLM 自动策略发现:风险感知多智能体生成可执行 Alpha 因子 Curated AI Factor Generation and Backtest Method Research | 2025-11-01 | 因子生成 / 表示学习, 评估审计 / 可比性 | LLM 因子生成 |
| 17 | 9 | LENS:面向金融时序的预训练 Transformer 基础模型 Curated Model and Financial Time-Series Research | 2024-08-19 | 模型训练 / 序列预测 | MLP 时序预测 |
| 18 | 9 | GRU/LSTM/Transformer 金融趋势预测对照:轻量序列模型基线参考 Curated Model and Financial Time-Series Research | 2024-11-08 | 模型训练 / 序列预测 | MLP 时序预测 |
| 19 | 9 | 金融科技系统中的自适应风险评估:基于强化学习的连续策略优化 OpenAlex Semantic Works Search | 2026-06-11 | 因子生成 / 表示学习, 模型训练 / 序列预测 | LGB 融合与筛选, MLP 时序预测 |
| 20 | 9 | DeXposure-Claw:面向 DeFi 风险监管的智能体系统 arXiv HFT Time-Series Forecasting | 2026-06-17 | 模型训练 / 序列预测, 因子生成 / 表示学习 | LLM 因子生成, MLP 时序预测 |
本次采集状态
| 数据源 | 状态 | 条目 | 说明 |
|---|---|---|---|
china_broker_microstructure_curated | ok | 5 | |
model_timeseries_curated | ok | 6 | |
ai_factor_method_curated | ok | 6 | |
arxiv_hft_timeseries | ok | 24 | https://export.arxiv.org/api/query |
openalex_hft_semantic | ok | 24 | https://api.openalex.org/works |
数据源清单
| 数据源 | 状态 | 抓取方式 | 优先级 | 主题 |
|---|---|---|---|---|
china_broker_microstructure_curated中文券商高频与市场微观结构精选 | 启用 | curated_seed | high | china_a_share, market_microstructure, level2, order_flow, tick_data, high_frequency_feature_engineering, order_imbalance, microprice, active_buy_sell, broker_research |
model_timeseries_curated模型与金融时序预测精选 | 启用 | curated_seed | high | mlp, gru, lstm, transformer, cnn, tcn, limit_order_book, financial_time_series, high_frequency_feature_engineering, multi_horizon_forecasting |
ai_factor_method_curatedAI 辅助因子生成与回测方法精选 | 启用 | curated_seed | high | llm_factor_generation, alpha_mining, feature_engineering, multi_agent, backtest_feedback, factor_evolution |
arxiv_hft_timeseriesarXiv 高频时序预测 | 启用 | arxiv_api | high | time_series_prediction, market_microstructure, limit_order_book, deep_learning, gru, mlp, transformer, llm_factor_generation |
openalex_hft_semanticOpenAlex 语义论文检索 | 启用 | openalex_api | high | semantic_search, market_microstructure, time_series_prediction, model_training, high_frequency_feature_engineering, alpha_factor_generation |
semantic_scholar_hftSemantic Scholar 相关论文 | 观察 | semantic_scholar_api | medium | citation_graph, related_papers, impact |
crossref_finance_metadataCrossref 金融论文元数据补全 | 观察 | crossref_api | medium | doi_metadata, dedupe, publication_metadata |
nber_working_papersNBER Working Papers | 观察 | rss | low | market_structure, macro_context, empirical_finance |
hkex_market_rss港交所市场沟通 RSS | 观察 | rss | low | exchange_rules, market_structure, trading_mechanism |
kysec_jianrong_quant_manual开源证券/建榕量化研究人工检索 | 观察 | manual_web_search | high | market_microstructure, order_flow, tick_data, china_a_share |
guosen_financial_engineering_manual国信证券金融工程人工检索 | 观察 | manual_web_search | high | tick_data, order_trade, active_buy_sell, broker_research |
csc_microstructure_wechat_manual中信建投市场微观结构人工检索 | 观察 | manual_web_search | high | level2, minute_frequency, market_microstructure, factor_mining |
citics_research_portal_manual中信证券研究门户人工检索 | 观察 | manual_web_search | medium | financial_engineering, market_structure, china_a_share |
gf_financial_engineering_official_manual广发证券金融工程人工检索 | 观察 | manual_web_search | medium | algorithmic_trading, quant_factor, event_driven, market_structure |
qiml_wechat_manual量化投资与机器学习公众号人工检索 | 观察 | manual_web_search | medium | quant_media, machine_learning, industry_context |
quantsplaybook_replication_github券商金工研报复现代码库 | 观察 | manual_web_search | medium | broker_research_replication, factor_research, code_review |
sse_official_page上交所官方页面 watcher | 观察 | official_page | medium | exchange_rules, market_structure, china_a_share |
szse_cninfo_api_manual深交所/巨潮数据服务人工源 | 观察 | manual_web_search | medium | china_a_share, exchange_disclosure, official_data_api |
ssrn_manual_searchSSRN 人工检索 | 观察 | manual_web_search | medium | working_papers, market_microstructure, empirical_finance |