本文探讨了Cisco如何利用AmazonSageMaker增强其生成式AI能力,特别是在Webex平台上的应用。Cisco通过将其大型语言模型(LLM)迁移到SageMakerInference,优化了AI/ML基础设施,提升了速度、可扩展性和性价比。以下是文章的主要内容:
Cisco的Webex是云端协作解决方案的领先提供商,提供视频会议、通话、消息、事件、投票、非实时视频以及客户体验解决方案等。Webex致力于提供包容性的协作体验,通过人工智能(AI)和机器学习(ML)消除地理、语言和技术熟悉度等障碍,保障安全与隐私。Webex与全球顶尖的商业和生产力应用程序(如AWS)合作。
Webex AI (WxAI)团队在提高这些产品的AI驱动功能中扮演着至关重要的角色,利用大型语言模型(LLMs)提高用户的生产力和体验。在过去一年中,WxAI团队致力于构建由LLMs驱动的AI功能,主要应用于WebexContactCenter,这是一个云端多渠道联络中心解决方案,帮助组织提供卓越的客户体验。通过整合LLMs,WxAI团队实现了智能虚拟助手、自然语言处理(NLP)及情感分析等高级功能,使Webex联络中心能够提供更个性化和高效的客户支持。
然而,随着这些LLM模型庞大到数百GB,WxAI团队在资源配置和应用程序启动方面面临挑战。为优化AI/ML基础设施,Cisco将其LLMs迁移至 ,从而提升速度、可扩展性及性价比。
本文着重介绍了Cisco如何实施新功能,并将现有工作负载迁移到AmazonSageMaker推理组件以适应其特定行业的联络中心用例。通过整合生成式AI,他们可以分析通话记录,更好地理解客户痛点并提升代理效率。此外,Cisco也应用生成式AI来提取关键通话驱动因素,优化代理工作流程,并深入了解客户的情感需求。通过采纳SageMakerInference,Cisco成功简化了其联络中心的运营,并提供满足客户需求的个性化互动。
在WebexMeetings中,平台利用生成式AI自动总结会议记录和文本,从中提取关键要点和行动事项,确保分散的团队即使错过实时会议也能保持信息同步。AI生成的总结提供了重要讨论和决策的简要概述,帮助员工快速了解内容。此外,Webex的生成式AI能力为会议内容提供智能洞察,包括识别行动事项、突出关键决策,并生成个性化的会议记录和待办事项列表。这些洞察帮助提高会议的效率,并使与会者对进展负责。
Webex还将生成式AI应用于其联络中心解决方案,以便实现客户与代理之间更自然的交互。AI可以对客户的询问生成上下文相关、具同情心的回应,还能自动撰写个性化电子邮件和聊天消息。这帮助联络中心的代理更高效地工作,同时保持高水平的客户服务。
Webex的生成式AI应用为客户带来了切实的好处。使用平台的AI驱动会议总结和洞察的客户报告显示出生产力提升。使用生成式AI的联络中心客户成功处理了数以万计的通话,客户满意度不断提高,处理时间也有所减少,使代理和客户之间的对话更加自然和富有同理心。
如需了解Webex如何利用生成式AI增强协作与客户参与,请参阅 。
Cisco的WxAI团队致力于提供基于最前沿机器学习的先进协作体验。该团队为Webex生态系统开发了一整套AI和ML功能,包括背景噪声消除和扬声器声音优化的音频智能能力、转录和翻译的语言智能,以及虚拟背景等视频智能特性。WxAI的创新前沿是 ,它提供语音激活控制和多语言无缝会议支持。为了构建这些先进的功能,WxAI利用了存储数百GB训练数据的LLMs。
最初,WxAI将LLM模型直接嵌入运行于 (AmazonEKS)的应用程序容器映像中。然而,随着模型越来越大且复杂,该方法面临显著的可扩展性和资源利用挑战。通过应用程序操作资源密集型的LLMs需要大量的计算资源,这导致资源分配和应用程序启动等流程变慢,也妨碍了WxAI团队迅速开发、测试和部署新AI驱动功能。为了应对这些挑战,WxAI团队转向了SageMakerInference——一种完全托管的AI推理服务,它允许与使用它们的应用程序独立的无缝模型部署和扩展。通过将LLM托管与Webex应用程序解耦,WxAI能够为模型配置必要的计算资源,而不影响核心的协作和通信能力。
“应用程序与模型在工作和扩展的方式上存在根本不同,成本考量也完全不同;通过将二者分离而不是混合在一起,独立解决问题要简单得多。”
– Travis Mehlinger, Cisco首席工程师。
这种架构的转变使得Webex能够在其协作和客户互动解决方案中充分发挥生成式AI的潜力。
为了应对将LLMs直接嵌入应用程序中所面临的可扩展性和资源利用挑战,WxAI团队迁移至SageMakerInference。借助这一完全托管的LLM部署服务,Cisco解锁了显著的性能和成本优化机会。主要收益包括能够在单个端点后部署多个LLMs,以加快扩展速度和改善响应延迟,以及节省成本。此外,WxAI团队实施了LLM代理,以简化Webex团队对LLMs的访问,启用集中数据收集,减少运营开销。通过SageMakerInference,Cisco能够高效管理和扩展其LLM部署,充分发挥生成式AI的潜力,同时保持最佳性能、可扩展性和成本效益。
以下图表展示了WxAI在AWS上的架构。
删除)
该架构建基于强大而安全的AWS基础:
WxAI团队的一个关键关注点是增强Webex联络中心平台的能力。一个典型的Webex联络中心安装有数百名代理,通过电话和数字渠道处理大量交互。Webex的AI驱动的主题分析功能通过分析聚合的历史交互来提取客户来电的主要原因,并将它们聚类成有意义的主题类别。如以下截图所示,联络中心管理员可以使用这些洞察来优化运营,提高代理表现,从而提供更满意的客户体验。
删除)
主题分析功能由三个模型组成:通话驱动因素提取模型、主题聚类模型以及主题标记模型,概述如下。
删除)
模型详细信息包括:
us-east-2
、eu-west-2
、eu-central-1
、ap-southeast-1
、ap-southeast-2
、ap-northeast-1
和ca-central-1
的AWS区域。该解决方案还利用了SageMaker的自动扩展能力,根据预设的最小1个端点和最大30个端点数量动态调整实例数量。这种方法有效利用资源,同时维持高吞吐量,使WxAI平台能够在高峰时段每分钟处理数百次推论并在夜间处理批量工作。通过在SageMaker推理中采用自动扩展,WxAI团队能够为其主题分析用例向客户交互提供可靠且准确的反馈。
通过准确识别通话驱动因素,系统能够为代理提供适当的行动建议、资源和后续步骤,简化客户支持过程,从而进一步提供个性化和准确的客户响应。
为了应对波动的需求并优化资源利用,WxAI团队对SageMaker推理端点实施了自动扩展。他们根据GPU利用率配置端点,使实例数量从最小数量扩展到最大数量。此外,LLM代理在不同的LLMs之间路由请求,该代理抽象了与各种LLM供应商沟通的复杂性,并启用了集中数据收集与分析,从而提升了生成式AI工作流的效率,优化了延迟及个性化的用例实施。
通过战略性地采用AWS AI服务,Cisco的WxAI团队实现了显著的益处,促使他们更快速和成本效益地构建先进的AI驱动协作能力:
在成功迁移至SageMaker推理的基础上,Cisco在与SageMaker推理团队的合作中发挥了重要作用,推动了SageMaker平台中关键生成式AI能力的构建与增强。自生成式AI兴起以来,Cisco为SageMaker推理团队提供了宝贵的建议和专业知识,使得多个新功能和优化得以引入:
Leave a Reply