热门资讯

WOWService – 美团推出的大模型交互系统技术报告

业界来源：AI工具集 2025-11-09 02:55:43

WOWService是什么

WOWService 是美团 LongCat 团队发布的智能交互系统，通过融合大型语言模型（LLMs）和多智能体架构，优化用户体验并降低成本。系统针对智能交互领域的五大挑战：冷启动数据构建、多轮对话性能、业务规则变化、单一 LLM 的局限性以及多轮对话的量化评估难题，提出了创新解决方案。WOWService 采用四阶段训练流水线：持续预训练（CPT）、有监督微调（SFT）、直接偏好优化（DPO）和强化学习（RL），显著提升了模型在业务场景中的表现。其多智能体架构通过主智能体与多个专业子智能体的协作，实现了复杂任务的高效处理。系统引入了数据与知识双驱动机制，通过自我优化训练（SRT）和混合数据知识驱动方法，进一步提升了模型的性能。

WOWService的主要功能

数据构建与优化：WOWService采用数据与知识双驱动策略，通过自适应数据混合优化和高质量数据筛选，提升模型训练效率和性能，降低数据标注成本。
多轮对话性能提升：系统通过持续预训练、有监督微调、直接偏好优化和强化学习四阶段训练，显著增强多轮对话中的意图理解、规则遵循和解决方案提取能力。
业务规则适配与自进化：WOWService具备自我优化训练机制，能够快速适应业务规则变化，实现模型的持续进化和优化，降低业务扩展成本。
多智能体协作：引入多智能体架构，主智能体负责全局对话控制，专业子智能体处理特定任务，提升系统在复杂场景下的服务质量和灵活性。
自动化评估与反馈：构建了全面的评估框架，涵盖模型基础性能和端到端智能体效果评估，通过数据反馈实现模型的持续改进。
多模态交互支持：WOWService支持多模态输入，如语音、图像等，通过多模态理解智能体，提升系统对非文本输入的理解能力，拓展应用场景。

WOWService的技术原理

数据与知识双驱动：WOWService融合数据驱动和知识驱动，通过高质量数据和结构化业务知识的结合，强化模型对业务规则和知识点的遵循能力，提升模型在复杂业务场景下的表现。
四阶段训练流水线：采用持续预训练（CPT）、有监督微调（SFT）、直接偏好优化（DPO）和强化学习（RL）四个阶段的训练流程，逐步提升模型的通用能力、业务适配能力和推理能力。
多智能体架构：引入主智能体和多个专业子智能体，主智能体负责全局对话控制，子智能体处理特定任务，通过动态调用和信息整合，实现复杂任务的高效处理。
自我优化训练：通过自动筛选高质量服务案例和重写低质量对话，构建自我进化的数据闭环，使模型能够持续优化并适应新的业务需求。
混合数据知识驱动：结合数据驱动的灵活性和知识驱动的规则适应性，通过动态知识检索和推理增强，提升模型在复杂业务流程中的准确性和可靠性。
强化学习与偏好优化：利用强化学习和直接偏好优化技术，使模型能够根据人类反馈进行调整，生成更符合人类偏好的输出，提升用户体验。
自动化评估框架：建立从模型基础性能到端到端智能体效果的全面评估体系，支持自动化评估和持续优化，确保模型在实际应用中的稳定性和高效性。