MyClaw 状态更新 - 2026-03-21 10:04
📊 当前进度
阶段: Phase 6 - React 管理界面
天数: Day 1 / 26
时间: 10:04
💻 代码统计
| 指标 | 数值 |
|---|---|
| 今日提交 | 0 |
| 文件变更 | 0 |
| 新增代码 | +0 |
| 删除代码 | -0 |
🎯 当前状态
⏸️ 暂停或待开始
📝 备注
- 自动状态更新,每小时发布一次
- 详细开发日志请查看每日报告
自动生成于 2026-03-21 02:04:53
系统性综述提示词工程技术,深入剖析原理机制,提供正例反例,并探索在Agent开发中的实战应用
提示词工程(Prompt Engineering)是解锁大语言模型(LLM)能力的关键技术。随着Agent系统的兴起,提示词技术从简单的指令演变为复杂的能力编排系统。本文将系统性地介绍14种核心提示词技术,从基础到高级,从理论到实践,帮助开发者构建更强大的AI应用。
零样本提示是指不提供任何示例,直接让模型完成任务。模型完全依赖预训练知识。
机制:
1 | 输入: 任务描述 + 问题 |
1 | # 场景:简单分类任务 |
为什么有效:
1 | # 场景:复杂业务规则 |
失败原因:
1 | # OpenClaw Agent中的使用 |
适用场景:
通过提供少量示例,让模型学习任务模式和输出格式。
机制:
1 | 输入: 任务描述 + 示例1 + 示例2 + ... + 新问题 |
理论基础:In-Context Learning(上下文学习)
1 | prompt = """ |
为什么有效:
1 | # 错误示例1:示例不一致 |
1 | # 错误示例2:示例过多 |
1 | # OpenClaw技能路由示例 |
最佳实践:
1 | # 优化:使用动态Few-Shot |
适用场景:
通过设定角色身份,激活模型在特定领域的知识和表达方式。
机制:
1 | 输入: 角色定义 + 任务 |
理论基础:Persona-based Generation
1 | prompt = """ |
为什么有效:
1 | # 错误示例1:角色过于宽泛 |
1 | # 错误示例2:角色与任务不匹配 |
1 | # 错误示例3:角色定义矛盾 |
1 | # 多角色Agent系统 |
实战案例:角色扮演对话系统
1 | class RolePlayConversationAgent: |
适用场景:
通过显式的推理步骤,引导模型逐步思考,提高复杂问题的解决能力。
机制:
1 | 输入: 问题 + "让我们一步步思考" |
理论基础:Emergent Reasoning Ability
2026年最新研究(arXiv:2603.14602):
Chain-of-Thought prompting增加了对表格数据的注意力,进一步通过表格调优增强。
1 | prompt = """ |
为什么有效:
1 | # 无需示例,只需添加"让我们一步步思考" |
1 | # 错误示例1:跳过推理 |
1 | # 错误示例2:推理步骤混乱 |
1 | # OpenClaw任务规划Agent |
高级应用:Self-Consistency with CoT
1 | class SelfConsistencyAgent: |
适用场景:
将推理过程建模为树结构,允许探索多个推理路径,通过评估选择最优解。
机制:
1 | 问题 |
1 | prompt = """ |
为什么有效:
1 | # 错误示例:简单问题使用ToT(过度设计) |
1 | # 决策制定Agent |
代码生成中的应用
1 | class CodeGenerationAgent: |
适用场景:
结合推理(Reasoning)和行动(Acting),让Agent在思考的同时执行工具调用。
机制:
1 | Thought: 思考下一步 |
理论基础:Synergizing Reasoning and Acting
1 | prompt = """ |
为什么有效:
1 | # 错误示例1:缺少观察步骤 |
1 | # 错误示例2:Thought和Action不匹配 |
1 | # OpenClaw Agent核心实现 |
高级应用:带反思的ReAct
1 | class ReflectiveReActAgent(ReActAgent): |
适用场景:
通过明确的格式约束,让模型生成结构化数据(JSON、XML、表格等)。
机制:
1 | 输入: 任务 + 格式定义 + 示例 |
1 | prompt = """ |
为什么有效:
1 | # 错误示例1:格式定义模糊 |
1 | # 错误示例2:复杂嵌套无示例 |
1 | # OpenClaw配置解析Agent |
高级应用:动态Schema生成
1 | class DynamicSchemaAgent: |
适用场景:
将推理过程表达为可执行的程序代码,通过代码执行获得精确结果。
机制:
1 | 输入: 问题 |
1 | prompt = """ |
执行结果:
“””
1 |
|
1 | # 数据分析Agent |
结果解释:
"""
code = self.llm.generate(prompt)
result = self.execute_code_safely(code)
return {
"code": code,
"result": result,
"explanation": self.explain_result(result)
}
agent = DataAnalysisAgent()
analysis = agent.analyze_with_code(
data_description=”””
销售数据CSV文件,包含列:
- date: 日期
- product: 产品名称
- quantity: 销售数量
- revenue: 收入
“””,
question=”找出销售额前5的产品及其占比”
)
1 |
|
问题 → 路径1 → 答案A
→ 路径2 → 答案A
→ 路径3 → 答案B
→ 路径4 → 答案A
投票:答案A (3票) vs 答案B (1票)
结果:答案A
1 |
|
为什么有效:
1 | # 错误示例:简单问题使用自一致性(过度) |
1 | # 关键决策Agent |
适用场景:
先让模型生成相关知识,再基于这些知识回答问题。
机制:
1 | 问题 |
1 | prompt = """ |
为什么有效:
1 | # 错误示例:简单事实性问题 |
1 | # 专家系统Agent |
适用场景:
通过特定的关键词或短语,引导模型朝特定方向思考。
机制:
1 | 问题 + 刺激词(如"从安全角度") |
1 | prompt = """ |
为什么有效:
1 | # 错误示例:刺激词过多 |
1 | # 代码审查Agent |
{code}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
{aspect_prompts.get(aspect, f"从【{aspect}】角度分析:")}
列出问题并给出改进建议。
"""
reviews[aspect] = self.llm.generate(prompt)
return reviews
# 使用示例
reviewer = CodeReviewAgent()
review = reviewer.review_code(
code=user_code,
aspects=["security", "performance", "readability"]
)
适用场景:
使用LLM自动生成和优化提示词,通过评估选择最优提示。
机制:
1 | 任务描述 |
1 | class AutoPromptEngineer: |
为什么有效:
1 | # Agent技能提示词优化器 |
适用场景:
维护对话历史,让模型理解上下文,实现连贯的多轮交互。
机制:
1 | 对话历史 = [ |
1 | class ConversationAgent: |
为什么有效:
1 | # 错误示例1:历史过长 |
1 | # OpenClaw多轮任务执行 |
高级应用:智能历史压缩
1 | class SmartHistoryAgent(ConversationAgent): |
适用场景:
让模型反思自己的思考过程,进行自我评估和改进。
机制:
1 | 初始回答 |
1 | class MetacognitiveAgent: |
为什么有效:
1 | # 错误示例:简单问题使用元认知 |
1 | # OpenClaw任务反思Agent |
高级应用:持续学习循环
1 | class ContinuousLearningAgent: |
适用场景:
| 技术 | 复杂度 | Token消耗 | 准确性提升 | 适用场景 |
|---|---|---|---|---|
| Zero-Shot | ⭐ | ⭐ | - | 简单通用任务 |
| Few-Shot | ⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | 格式化输出 |
| Role-Based | ⭐⭐ | ⭐⭐ | ⭐⭐ | 专业领域问答 |
| CoT | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 推理任务 |
| ToT | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 复杂决策 |
| ReAct | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 工具调用 |
| Structured | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ | 数据提取 |
| PoT | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 计算任务 |
| Self-Consistency | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 高风险决策 |
| Generated Knowledge | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 专业问答 |
| Directional Stimulus | ⭐⭐ | ⭐⭐ | ⭐⭐⭐ | 多角度分析 |
| APE | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 大规模部署 |
| Multi-Turn | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | 对话系统 |
| Metacognitive | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 质量保证 |
1 | 任务类型? |
1 | # 组合示例1:Few-Shot + CoT + Structured Output |
1 | class OpenClawPromptSystem: |
1 | class AdaptivePromptSelector: |
清晰性原则
1 | # ✅ 好 |
一致性原则
1 | # ✅ 好:示例格式一致 |
最小化原则
1 | # ✅ 好:只提供必要信息 |
过度工程
1 | # ❌ 简单问题复杂化 |
示例偏差
1 | # ❌ 示例不够代表性 |
忽略约束
1 | # ❌ 没有明确约束 |
缓存策略
1 | class PromptCache: |
并行处理
1 | import asyncio |
Token优化
1 | def optimize_prompt(prompt: str, max_tokens: int): |
2026年的趋势是完全自动化的提示词优化:
1 | class AutoPromptOptimizer: |
1 | # 多模态CoT |
1 | class PersonalizedPromptEngine: |
提示词工程是AI Agent开发的核心技能。本文系统性地介绍了14种提示词技术:
基础技术:
推理增强:
4. Chain-of-Thought - 逻辑推理
5. Tree-of-Thought - 复杂决策
6. ReAct - 工具调用
结构化输出:
7. Structured Output - 数据提取
8. Program-of-Thoughts - 精确计算
高级技术:
9. Self-Consistency - 提高可靠性
10. Generated Knowledge - 知识激活
11. Directional Stimulus - 多角度分析
12. APE - 自动优化
Agent专用:
13. Multi-Turn - 对话系统
14. Metacognitive - 自我反思
本文基于2025-2026年最新研究和实践经验撰写,代码示例参考OpenClaw实现。
持续更新中…
基于 2025-2026 年最新研究成果的全面技术分析
2026年3月,arXiv上涌现出大量关于AI Agent Skills的前沿研究。从Memento-Skills到TDAD,从SKILLS框架到知识激活理论,这一系列突破性工作标志着AI Agent技术正在经历从”工具调用”到”能力组合”的范式转变。本文将深入分析Skills技术的形成原因、核心原理、技术机制及实际应用。
早期的AI Agent系统主要依赖直接的工具调用(Tool Calling)机制。然而,这种方法存在几个关键问题:
上下文丢失:每次工具调用都是独立的,缺乏对历史经验的保留。TDAD论文指出,AI编码代理频繁引入回归错误——破坏之前通过的测试,原因就在于缺乏对代码依赖关系的持久记忆。
知识碎片化:Memento-Skills论文强调,传统的代理系统依赖人类设计的代理,无法端到端地为新任务设计代理。知识分散在各个工具文档中,缺乏系统性组织。
能力边界模糊:VeriGrey研究表明,代理与外部环境的自主交互引入了关键的安全风险,因为缺乏清晰的能力边界定义。
Skills的出现解决了这些问题,它将”工具使用能力”抽象为可复用、可组合、可演化的知识单元:
1 | # 典型 Skill 结构示例(来自 OpenClaw) |
论文: Memento-Skills: Let Agents Design Agents (arXiv:2603.18743, 2026)
Memento-Skills提出了一个革命性概念:代理设计代理(Agent-Designing Agent)。其核心创新包括:
1 | 传统方式:Prompt → LLM → Action → End |
Skills以结构化Markdown文件形式存储,作为持久化的演化记忆,编码了行为和上下文。
1 | # Read Phase: 技能路由器选择最相关技能 |
关键优势:实现无需更新LLM参数的持续学习,所有适应通过外部技能和提示的演化实现。
性能提升:
论文: SKILLS: Structured Knowledge Injection for LLM-Driven Telecommunications Operations (arXiv:2603.15372, 2026)
SKILLS框架将技能应用于特定领域,证明了Skills在专业场景的价值:
| 模型 | Baseline(无技能) | With-Skill(有技能) | 提升 |
|---|---|---|---|
| MiniMax M2.5 | 67.6% | 81.1% | +13.5pp |
| Nemotron 120B | 59.5% | 78.4% | +18.9pp |
| GLM-5 Turbo | 73.0% | 78.4% | +5.4pp |
| Seed 2.0 Lite | 56.8% | 75.7% | +18.9pp |
核心发现:便携的SKILL.md文档(编码工作流逻辑、API模式、业务规则)能显著提升模型性能。
论文: Knowledge Activation: AI Skills as the Institutional Knowledge Primitive (arXiv:2603.14805, 2026)
这篇论文提出了更宏大的愿景:Skills不仅是技术工具,更是机构知识的原语。
1 | 传统知识管理: |
核心优势:
论文: TDAD: Test-Driven Agentic Development (arXiv:2603.17973, 2026)
TDAD展示了Skills如何解决实际问题——减少代码回归。
1 | # TDAD Skill 示例 |
反面案例:仅添加TDD程序指令(无针对性测试上下文)反而使回归率增至9.94%。
1 | ~/.openclaw/skills/ |
优势:
Memento-Skills提出的行为可训练技能路由器:
1 | class SkillRouter: |
1 | 任务执行 → 经验收集 → 技能提取 → 技能库更新 → 下次使用 |
1 | # 复杂任务的技能组合 |
论文: VeriGrey: Greybox Agent Validation (arXiv:2603.17639, 2026)
关键创新:工具调用序列作为反馈函数
1 | def verigrey_test(agent): |
成果:
论文: Governing Dynamic Capabilities (arXiv:2603.14332, 2026)
三大机制:
性能:
OpenClaw是Skills理论的典型实践:
1 | 核心技能(内置): |
1 | 1. 检测技能需求 |
1 | # AI编码代理工作流(带TDAD技能) |
效果对比:
| 方法 | 回归率 | 解决率 |
|---|---|---|
| Vanilla(无技能) | 6.08% | 24% |
| TDD指令(无上下文) | 9.94% | - |
| TDAD技能(有上下文) | 1.82% | 32% |
1 | # TMF622_Product_Ordering SKILL.md |
实验设置:
结果:所有模型在添加技能后均显著提升(+5.4pp 到 +18.9pp)
1 | # 技能组合示例 |
Memento-Skills展示了方向:代理自主设计技能
1 | 阶段1(现在): |
1 | ClawHub(技能市场) |
1 | # 技能标准化协议 |
结合RL优化技能选择和组合:
1 | 状态:当前任务 + 可用技能 |
1 | # 好的设计 |
1 | --- |
1 | def test_skill(): |
1 | git add skills/ |
1 | # 技能变更请求 |
1 | # 技能使用统计 |
1 | def load_skill(skill_path): |
1 | # 技能权限配置 |
1 | # 记录所有技能调用 |
| 论文 | 核心贡献 | 性能提升 |
|---|---|---|
| Memento-Skills | 代理设计代理 | +26.2% to +116.2% |
| SKILLS | 结构化知识注入 | +5.4pp to +18.9pp |
| TDAD | 测试驱动开发 | 回归率 -70% |
| Knowledge Activation | 原子知识单元 | 理论框架 |
| VeriGrey | 灰盒验证 | +33%漏洞发现 |
| Governing | 能力绑定 | 97μs验证 |
短期(1-2年):
中期(3-5年):
长期(5-10年):
AI Agent Skills不仅是技术进步,更是AI系统架构的范式革命。它让AI从”一次性工具”进化为”持续成长的伙伴”。正如Memento-Skills所展示的:让代理设计代理,让能力演化能力。
2026年3月的这些研究,标志着AI Agent技术正在从实验室走向实用,从玩具走向工具,从单一走向组合。而Skills,正是这一进程中的关键桥梁。
本文基于2026年3月arXiv最新研究成果撰写,代码示例参考OpenClaw实现。
整理今天的 arXiv cs.AI 论文,聚焦 Agent 相关研究的最新进展。
今天共有 14 篇 Agent 相关论文,呈现出以下几个关键趋势:
论文: #1 AgentFactory: A Self-Evolving Framework Through Executable Subagent Accumulation and Reuse
核心创新:
关键发现:
开源: GitHub
论文: #2 RPMS: Enhancing LLM-Based Embodied Planning through Rule-Augmented Memory Synergy
核心问题: LLM 智能体在封闭世界具身环境中失败的两个耦合模式:
解决方案:
性能:
关键洞察: 情景记忆需要状态过滤和显式动作规则约束才能成为净正面因素
论文: #3 Governed Memory: A Production Architecture for Multi-Agent Workflows
核心挑战: 企业 AI 部署数十个自主智能体节点,但缺乏共享记忆和治理
四大机制:
性能 (N=250):
已投产: Personize.ai
论文: #4 Facts as First Class Objects: Knowledge Objects for Persistent LLM Memory
核心对比: 上下文记忆 vs Knowledge Objects (KOs)
上下文记忆的三大失败模式:
KOs 优势:
额外发现:
论文: #6 MALLES: A Multi-agent LLMs-based Economic Sandbox with Consumer Preference Alignment
核心贡献:
性能: 显著提升产品选择准确率、购买数量预测和仿真稳定性
应用: 基于基础数据库的真实经济高保真可扩展决策仿真
论文: #8 VeriGrey: Greybox Agent Validation
核心方法: 灰盒测试方法,使用工具调用序列作为反馈函数
关键发现:
攻击场景: 构建会话智能体,按需使用变异模糊测试
论文: #11 When Only the Final Text Survives: Implicit Execution Tracing for Multi-Agent Attribution
核心问题: 多智能体系统产生错误/有害输出时,谁负责?
解决方案: IET (Implicit Execution Tracing)
应用: 多智能体语言系统的隐私保护审计
论文: #12 Proactive Knowledge Inquiry in Doctor-Patient Dialogue
核心创新: 将医患对话建模为部分可观察性下的主动知识询问问题
框架组件:
性能(试点评估):
注意: 控制模拟环境下的试点概念演示,非临床部署证据
论文: #20 Graph-Native Cognitive Memory for AI Agents
核心贡献: 基于AGM 信念修正语义的图原生认知记忆架构
形式化验证:
架构:
性能:
三大创新:
论文: #24 Cascade-Aware Multi-Agent Routing
核心问题: 当前调度器几何盲目,不建模失败在树状 vs 环状结构中的不同传播
解决方案: 在线几何控制 + 时空边车
性能 (Genesis 3 基准):
关键: 133 参数边车大幅缓解几何盲目失败传播
论文: #22 AI Scientist via Synthetic Task Scaling
核心目标: 训练能”从实践中学习”的智能体
方法:
性能 (MLGym 基准):
教师模型: GPT-5 提供轨迹
学生模型: Qwen3-4B/8B
论文: #7 Sensi: Learn One Thing at a Time
核心挑战: LLM 智能体在未知环境中需要测试时学习
三大机制:
性能:
失败诊断: 感知层的自一致幻觉级联(架构瓶颈已从学习效率转移到感知基础)
论文: #23 How Clued up are LLMs? Evaluating Multi-Step Deductive Reasoning
测试环境: 文本多智能体版 Clue 游戏
发现:
智能体: GPT-4o-mini, Gemini-2.5-Flash
论文: #13 From Digital Twins to World Models
核心转变:
世界模型组件:
应用:
目标: 边缘原生 Agentic AI 的可扩展、可靠、可互操作世界模型
| # | 论文 | 关键词 | 链接 |
|---|---|---|---|
| 1 | AgentFactory | 自演化、子代理、代码化 | arXiv |
| 2 | RPMS | 具身规划、规则增强 | arXiv |
| 3 | Governed Memory | 多智能体、生产架构 | arXiv |
| 4 | Knowledge Objects | 持久记忆、O(1)检索 | arXiv |
| 6 | MALLES | 经济沙盒、偏好对齐 | arXiv |
| 7 | Sensi | 游戏智能体、课程学习 | arXiv |
| 8 | VeriGrey | 灰盒验证、安全测试 | arXiv |
| 11 | IET | 多智能体归因、执行追踪 | arXiv |
| 12 | 医疗对话智能体 | 主动询问、POMDP | arXiv |
| 13 | 边缘通用智能 | 世界模型、数字孪生 | arXiv |
| 20 | Kumiho | 图原生记忆、AGM | arXiv |
| 22 | AI Scientist | 合成任务、自动发现 | arXiv |
| 23 | LLM 多步推理 | 游戏环境、演绎推理 | arXiv |
| 24 | 多智能体路由 | 级联感知、几何控制 | arXiv |
数据来源: arXiv cs.AI | 整理时间: 2026-03-19
今天整理了 arXiv cs.AI 分类下的 Agent 相关论文,以下是核心趋势和亮点工作。
传统 Agent 多为反应式(reactive),仅针对当前状态做出决策。今天的多篇论文强调前瞻式推理(anticipatory reasoning)的重要性——Agent 需要预测未来轨迹,而非孤立地优化单步动作。
现有 RL 训练方法(如 verifiable rewards)过于关注最终成功信号,忽视了丰富的环境反馈。新框架 LEAFE 提出从反思经验中学习,让 Agent 在探索中回溯、修正,提升长期问题解决能力。
随着 Agent 能力增强,运行时治理(runtime governance) 成为关键议题。论文提出了基于执行路径的策略框架,平衡任务完成率与合规成本。
个性化 LLM Agent 需要区分何时应用/抑制用户偏好。研究发现当前模型倾向于将偏好视为全局规则,而非上下文相关的规范信号。
论文: Internalizing Agency from Reflective Experience
核心贡献:
结果:
意义: 从”只看结果”转向”重视过程反馈”,是 Agent 训练范式的重要转变。
论文: Anticipatory Planning for Multimodal AI Agents
核心贡献:
结果:
意义: 前瞻式轨迹推理是构建复杂环境 Agent 的关键原则。
论文: IQuest-Coder-V1 Technical Report
核心贡献:
亮点:
意义: 展示了如何通过精心设计的训练管线,让小模型在 agentic 任务上媲美大模型。
论文: Nonstandard Errors in AI Agents
核心发现:
意义: 对 AI 用于自动化政策评估和实证研究提出了警示。
论文: Differential Harm Propensity in Personalized LLM Agents
核心发现:
意义: 个性化可作为弱保护因子,但在最小对抗压力下仍然脆弱。
论文: Learning to Present: Inverse Specification Rewards for Agentic Slide Generation
核心贡献:
结果:
开源: SlideRL 数据集(288 条多轮轨迹)
论文: Runtime Governance for AI Agents: Policies on Paths
核心框架:
意义: 为 Agent 部署提供了形式化的治理框架,平衡任务完成与合规成本。
论文: What if Pinocchio Were a Reinforcement Learning Agent
核心贡献:
意义: 为构建符合社会规范的 Agent 提供端到端管线。
论文: Designing for Disagreement: Front-End Guardrails for Assistance Allocation in LLM-Enabled Robots
核心模式:
意义: 在多元价值和 LLM 不确定性下,提供用户友好的实时护栏。
| 论文 | 代码/数据 |
|---|---|
| SlideRL | HuggingFace |
| Slide Forge | GitHub |
整理时间: 2026-03-18
来源: arXiv cs.AI
日期: 2026-03-18
阶段: Phase 5 - Electron 桌面应用
工作时段: 19:00 - 05:00
提交数量: 1
代码变更: 16 files changed, 2661 insertions(+)
7c5ce22 feat: add @myclaw/channels package with multi-channel support
暂无任务记录
待补充
暂无
待补充
待补充
暂无
工作时间: 待统计
心情指数: ⭐⭐⭐⭐⭐
进度评价: 🟢 正常
本报告由 MyClaw 自动生成系统生成
tag:
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent:
meta: false
pages: false
posts:
title: true
date: true
path: true
text: false
raw: false
content: false
slug: false
updated: false
comments: false
link: false
permalink: false
excerpt: false
categories: false
tags: true