LLM & SLM 研究日报 - 2026-07-04

2026-07-04

LLM & SLM 研究日报

算法·训练·推理 —— 大语言模型与小语言模型的前沿研究

数据源: cs.CL + cs.LG

生成时间: 2026/7/4 17:22:49

📊 今日概况

方向	论文数
🧮 算法与架构	7
🏋️ 训练方法	6
⚡ 推理优化	5
总计扫描	50

📝 论文列表

🧮 算法与架构 (7 篇)

1. Reasoning LLM Improves Speaker Recognition in Long-form TV Dramas

arXiv: 2607.02504
摘要: lrm,dramasr,dramas,532k,speaker,textbf,recognition,reasoning,storyline,198808xc
关键词: lrm,dramasr,dramas,532k,speaker,textbf,recognition,reasoning,storyline,198808xc

2. CheckRLM: Effective Knowledge-Thought Coherence Checking in Retrieval-Augmented Reasoning

arXiv: 2607.02262
摘要: checkrlm,reasoning,factual,knowledge,checking,chain,errors,rlms,coherence,retrieval
关键词: checkrlm,reasoning,factual,knowledge,checking,chain,errors,rlms,coherence,retrieval

3. NAVER LABS Europe Submission to the Instruction-following 2026 Short Track

arXiv: 2607.01960
摘要: track,speech,submission,naver,2026,short,sqa,labs,europe,year
关键词: track,speech,submission,naver,2026,short,sqa,labs,europe,year

4. AIriskEval-edu: New Dataset for Risk Assessment in AI-mediated K-12 Educational Explanations

arXiv: 2607.01934
摘要: airiskeval,risk,edu,explanations,educational,db2,pedagogical,assessment,teacher,dataset
关键词: airiskeval,risk,edu,explanations,educational,db2,pedagogical,assessment,teacher,dataset

5. DecompRL: Solving Harder Problems by Learning Modular Code Generation

arXiv: 2607.02390
摘要: decomprl,gpu,harder,code,generation,livecodebench,problems,modular,sampling,implementations
关键词: decomprl,gpu,harder,code,generation,livecodebench,problems,modular,sampling,implementations

6. One More Time: Revisiting Neural Quantum States from a Reinforcement Learning Perspective

arXiv: 2607.02292
摘要: nqs,pwo,optimization,adam,principled,minsr,born,trust,rwkv,revisiting
关键词: nqs,pwo,optimization,adam,principled,minsr,born,trust,rwkv,revisiting

7. Bayesian Sparse Low-Rank Adaptation for Large Language Model Uncertainty Estimation

arXiv: 2607.02182
摘要: rank,dalorra,bayesian,adaptation,lora,sparse,uncertainty,language,llms,reasoning
关键词: rank,dalorra,bayesian,adaptation,lora,sparse,uncertainty,language,llms,reasoning

🏋️ 训练方法 (6 篇)

1. Unlocking Speech-Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning

arXiv: 2607.02214
摘要: speech,instruction,text,llm,tuning,language,slm,training,unlocking,pre
关键词: speech,instruction,text,llm,tuning,language,slm,training,unlocking,pre

2. Object Aligner: A Configurable JSON Schema Similarity Score for Graphs, Applied to LLM Prompt Optimization

arXiv: 2607.01972
摘要: aligner,json,schema,object,similarity,identifiers,llm,prompt,alignment,gepa
关键词: aligner,json,schema,object,similarity,identifiers,llm,prompt,alignment,gepa

3. DemoPSD: Disagreement-Modulated Policy Self-Distillation

arXiv: 2607.02502
摘要: demopsd,teacher,student,privileged,distillation,leakage,token,opsd,exploration,sciknoweval
关键词: demopsd,teacher,student,privileged,distillation,leakage,token,opsd,exploration,sciknoweval

4. HERMES: A Multi-Granularity Labeling Substrate for Pre-training Data Mixtures

arXiv: 2607.02266
摘要: granularity,hermes,substrate,mixer,prefix,labeling,clusterer,0253,rebuilds,coarse
关键词: granularity,hermes,substrate,mixer,prefix,labeling,clusterer,0253,rebuilds,coarse

5. Bayesian Sparse Low-Rank Adaptation for Large Language Model Uncertainty Estimation

arXiv: 2607.02182
摘要: rank,dalorra,bayesian,adaptation,lora,sparse,uncertainty,language,llms,reasoning
关键词: rank,dalorra,bayesian,adaptation,lora,sparse,uncertainty,language,llms,reasoning

6. Probing Chemical Language Models: Effects of Pre-training and Fine-tuning

arXiv: 2607.02140
摘要: clms,substructures,chemical,tuning,molecular,pre,fine,initialized,representations,encode
关键词: clms,substructures,chemical,tuning,molecular,pre,fine,initialized,representations,encode

⚡ 推理优化 (5 篇)

1. Unlocking Speech-Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning

arXiv: 2607.02214
摘要: speech,instruction,text,llm,tuning,language,slm,training,unlocking,pre
关键词: speech,instruction,text,llm,tuning,language,slm,training,unlocking,pre

2. DecompRL: Solving Harder Problems by Learning Modular Code Generation

arXiv: 2607.02390
摘要: decomprl,gpu,harder,code,generation,livecodebench,problems,modular,sampling,implementations
关键词: decomprl,gpu,harder,code,generation,livecodebench,problems,modular,sampling,implementations

3. Privacy-Preserving and Verifiable Approximate Distributed Coded Computing

arXiv: 2607.02187
摘要: privacy,malicious,coded,adversary,learning,gpbacc,distributed,federated,decentralized,computing
关键词: privacy,malicious,coded,adversary,learning,gpbacc,distributed,federated,decentralized,computing

4. Dynamic Neural Graph Encoding of Inference Processes in Deep Weight Space

arXiv: 2607.02166
摘要: neural,dng,inr,weight,implicit,encoder,dynamic,inference,highdimensional,graph
关键词: neural,dng,inr,weight,implicit,encoder,dynamic,inference,highdimensional,graph

5. ART for Diffusion Sampling: Continuous-Time Control and Actor-Critic Learning

arXiv: 2607.02137
摘要: sampling,art,schedules,diffusion,control,timestep,timesteps,actor,critic,time
关键词: sampling,art,schedules,diffusion,control,timestep,timesteps,actor,critic,time

LLM/SLM 技术洞察报告

1. 今日技术热点

今日研究热点主要集中在三个方向：推理增强、多模态融合与不确定性量化。在推理增强方面，CheckRLM提出了知识-思维连贯性检查方法，通过检索增强推理来检测链式推理中的错误，提高了事实准确性。多模态融合领域，”Unlocking Speech-Text Compositional Powers”展示了无需指令微调的语音-文本组合能力，为多模态模型训练提供了新思路。最值得关注的是Bayesian Sparse LoRA，它通过贝叶斯稀疏低秩适应技术，为LLM提供了不确定性估计能力，这对高风险应用场景具有重要意义。

2. 算法与架构趋势

Attention机制方面，稀疏Attention与状态空间模型(SSM)的竞争仍在继续，而Reasoning LLM通过引入推理能力改进说话人识别，展示了认知架构与任务特定设计的结合。MoE路由技术中，DecompRL通过学习模块化代码生成分解复杂问题，展现了任务分解的新思路。长上下文处理方面，动态神经图编码(DNG)为深度权重空间中的推理过程提供了新方法，突破了传统位置编码的限制。小模型架构创新体现在语音语言模型的无指令微调训练，展示了多模态融合的潜力。

3. 训练方法趋势

对齐技术新范式方面，DemoPSD通过分歧调制的策略自蒸馏，提供了避免教师模型信息泄露的新方法。数据工程领域，HERMES提出了多粒度标记基板，用于预训练数据混合，优化了数据质量评估。高效微调技术中，Bayesian Sparse LoRA结合了贝叶斯推断与稀疏适应，同时实现了参数高效和不确定性量化。训练稳定性方面，”Probing Chemical Language Models”研究了预训练和微调对模型表示的影响，为特定领域模型训练提供了见解。

4. 推理优化趋势

量化技术最新进展体现在隐私保护的可验证近似分布式编码计算，为安全推理提供了新方案。Speculative decoding变体方面，ART为扩散采样引入了连续时间控制和演员-批评家学习，优化了采样效率。端侧部署模型设计中，语音语言模型的无指令微调方法展示了资源受限环境下的多模态能力。KV cache管理策略方面，动态神经图编码技术为高维权重空间中的推理过程提供了高效表示方法。

5. 关键洞察

推理与事实性分离：CheckRLM证明将推理能力与事实性检查分离是提高LLM可靠性的关键，未来模型可能需要内置”事实核查模块”，特别是在医疗和法律等高风险领域。
多模态无需对齐：语音语言模型研究显示，多模态能力不一定需要复杂的对齐过程，这一发现可能简化多模态模型的训练流程，降低计算资源需求。
贝叶斯适应的优势：Bayesian Sparse LoRA结合了参数效率和不确定性估计，对于需要可靠性评估的金融、医疗等领域的应用具有重要价值。
模块化代码生成：DecompRL证明学习模块化代码生成可以解决更复杂的问题，这一思路可扩展到其他任务分解领域，提高问题解决能力。
动态权重空间编码：动态神经图编码技术展示了推理过程在高维权重空间中的新表示方法，这可能为未来的模型架构设计提供新方向。
隐私保护计算：隐私保护的可验证近似分布式编码计算为安全推理提供了新方案，在数据隐私要求严格的场景中具有重要应用前景。
化学语言模型启示：化学语言模型研究表明，预训练和微调对模型表示有不同影响，这一发现可迁移到其他专业领域，指导领域特定模型的训练策略。

6. 开源生态动态

今日研究与开源生态系统紧密关联。Bayesian Sparse LoRA可直接集成到HuggingFace的PEFT框架中，为现有工具链增加不确定性估计能力。语音语言模型的研究成果将为llama.cpp等端侧部署项目提供多模态支持。DecompRL的模块化代码生成方法可适配vLLM的推理优化框架。隐私保护计算研究与PyTorch的分布式计算模块兼容，为联邦学习场景提供解决方案。整体而言，这些研究成果正通过开源社区加速落地，推动LLM/SLM技术的民主化。

7. 学习建议

掌握贝叶斯方法：研究Bayesian Sparse LoRA等结合概率推理的微调方法，理解不确定性估计在高风险应用中的重要性，这是未来LLM可靠性的关键技术。
多模态融合实践：深入探索语音-文本组合模型，无需指令微调的多模态方法可能成为降低训练成本的重要方向，建议在项目中尝试这种轻量级多模态方案。
模块化设计思维：学习DecompRL的模块化代码生成思路，将复杂问题分解为可管理的子任务，这种思维模式可应用于各类AI系统设计。
动态图编码技术：研究动态神经图编码等新型表示方法，这些技术可能突破传统架构的局限性，为下一代模型设计提供灵感。
隐私保护计算：了解隐私保护的可验证近似分布式编码计算，在数据隐私日益重要的今天，这些技术将成为合规部署的关键技能。

📚 附录

筛选关键词

算法: attention mechanism, mixture of experts, MoE, sparse attention, flash attention, rotary position, RoPE, grouped query, GQA, KV cache …

训练: pre-training, pretraining, post-training, fine-tuning, finetuning, supervised fine-tuning, SFT, alignment, RLHF, DPO …

推理: inference, serving, latency, throughput, speculative decoding, batching, continuous batching, PagedAttention, vLLM, quantization …

本报告由 OpenClaw 自动生成 | LLM & SLM Research Daily