开会这个技术活，让AI+RTE 玩出了新高度

作者 | 三北

编辑 | 漠影

越来越多的企业正在将大模型装进视频会议系统，但他们发现，AI会议的搭建并不容易：

AI新功能识别不准确、上手不好用，会议系统与老旧硬件设备不兼容，AI内容分析引发企业数据安全担忧，定制化需求得不到及时满足……未来AI会议的畅想虽好，部署成本与精力问题令很多企业望而却步。

近日，在北京举办的“AI重塑会议协作”产品发布会上，声网推出的“灵动会议”为企业提供新的选择——提供搭载RTE（实时互动）与生成式AI双引擎技术的aPaaS平台，让企业轻松搭建具备实时字幕、AI会议纪要、AI主持人等多项能力的新一代AI会议，提升会议体验和效率。

与市面上常见的Zoom、腾讯会议等C端产品不同，灵动会议主要面向政企、云会议厂商、硬件会议厂商及大中型行业客户等B端市场。它帮助客户缩短实现AI会议搭建和传统会议转型的过程，通过SFU+MCU混合架构部署的低代码平台，提供开箱即用的能力包，满足客户会议、协作和调度需求。

成立于2014年的实时互动云服务商声网，已经在实时互动领域积累了多年经验。作为底层技术的赋能者，声网正率先将AI大模型整合前沿音视频技术，为企业客户在自身应用内构建多种AI实时音视频互动场景提供新选择。

大模型能为视频会议行业带来什么新故事？又会为行业带来什么样的价值？通过对话声网数字化行业负责人和利鹏，本文对此进行了深入探讨。

▲声网数字化行业负责人和利鹏

一、从纪要到AI主持人，大模型催生未来会议新形态

当前，视频会议行业正处在一个变革的关键时期。

我们可以看到三个趋势：MCU（多点控制单元）传统会议架构正在收缩，云会议崛起；会议系统由沟通工具，转变成为企业业务能力；AI赋能，会议向智变。

聚焦AI赋能，和利鹏告诉智东西，大模型已为视频会议行业带来了新变化。

以常见的会议纪要应用来说，在此前的小模型时期，会议纪要不准确、不好用，甚至连熟悉的人名都记不准确，没有被真正用起来；现在随着大模型引入，会议纪要的准确度大大提升，并通过与用户知识库对接，用得越多越准确，逐渐成为高频使用的效率工具。

再以会议回顾应用为例，此前的会议回顾大多是录制一个视频文件，大多数没有人会去回看；现在，经过AI对知识进行切片，用户可以直接关注感兴趣的部分，在中途参会或错过会议的情况下也能快速了解会议要点，办公体验和效率也由此得到显著提升。

而从热门的多模态出发，视频会议系统的“听说看”能力都将升级，比如未来也可能是数字分身代替人去参加会议进行表达，大模型正催生更多全新体验诞生。

“大模型对行业有一个很大的改变——如果说以前视频会议系统是一个音视频通道，那么AI时代的视频会议已具备了内容洞察和决策助力，升级成为一个智能协作平台。”和利鹏告诉智东西。

可以看到，从纪要到AI主持人，大模型正催生未来会议新形态。这种未来会议新形态，也将成为企业协同效率提升、业务成长的关键一环。

二、AI会议≠会议AI，单一会议工具向业务决策支撑平台转变

知名行研机构IDC数据显示，2023年中国（软硬件）视频会议市场规模达到9.2亿美元（约合64.9亿元人民币）。多位视频会议业内人士预测，大模型至少将为视频会议行业带来翻倍的市场增量。

在巨大新市场的驱动下，各大云巨头、SaaS厂商、音视频技术厂商以及传统视讯企业，都推出了AI会议相关功能及应用，试图在这个新的市场中分一杯羹。

围绕当下“神仙打架”的市场格局，和利鹏认为，会议AI并不等于AI会议。

市面上的不少会议AI，只是在上层应用层将单点的AI功能加到会议系统中，而灵动会是从底层会议的架构进行了改变，采用了AI与RTE（实时互动）双引擎架构，从底层重塑会议与协作。

▲灵动会议RTE与AI双引擎架构

具体来看，灵动会议采用了RTE 和AI 双引擎架构，RTE 技术确保低延迟、高可靠的音视频传输，使大模型能够接收到高质量的音视频内容，并进行更准确的处理。而生成式AI通过分析会议内容，提供智能功能，如自动生成字幕、会议纪要，并通过RTE的低延迟、高可靠通道来分发，以实现与大模型的互动。因此RTE与AI的结合赋予会议系统“听、说、看”的能力，这也正是灵动会议产品推动会议系统从单纯的信息传输工具，向具备内容理解与决策支持的智能引擎转变的核心因素。

基于声网自研的AI Agent框架，灵动会议能够兼容市场上主流的 ASR（自动语音识别）、LLM（大语言模型）和 TTS（文本转语音）技术，具备工作流编排能力，提供流畅自然的交互体验。该框架尤其支持市场主流的多模态大模型的集成。企业不仅可以使用单一模型，还可以将图像、音频、文本处理等多模态的大模型能力融合到一起，满足更复杂的会议场景需求。比如AI主持人可以帮助用户把控会议节奏、提供会议建议、调节音视频效果等，实现更自然沟通。

▲和利鹏在讲解声网灵动会议AI Agent框架

由上所述，灵动会议重点不仅在于底层的AI框架，还在于声网多年积累的RTE技术。基于灵动会议双引擎架构，AI不再是一个单一的工具模块，而是通过与声网RTE平台的深度融合，真正参与并优化会议的各个环节。

据悉，灵动会议RTE引擎能提供领先的音视频性能体验，依托声网SD-RTN™软件定义实时网，能做到80%丢包情况下音视频通话流畅，国内视频平均卡顿率小于1.1%，海外视频平均卡顿率小于 2%；同时基于视频增强策略、AI降噪、回声消除等技术提高视频会议质量。

此外，企业在数字化转型过程中，由于业务的逐步演进，常常会面临新设备引入、新开发环境和新功能组件接入的需求。然而，由于缺乏统一的管理底座，很多企业不得不为不同的业务场景构建独立的系统，形成“烟囱式”建设模式。这种模式导致系统封闭，资源利用率低，运维成本高。

而声网灵动会议产品推出了企业级音视频管理中台，作为统一的管理底座。这种中台能够将企业内部所有在线协作业务一站式集成，同时，通过AI技术的支持，实现音视频数据的统一分析和知识沉淀，逐步构建企业的知识库，成为企业的核心竞争力之一。

可以预测，在AI与RTE的双引擎驱动下，视频会议系统正从沟通管道变为智能协作平台，不仅能分析内容、指导决策，还能够帮企业沉淀知识库，从而重塑会议与协作。

三、AI再造会议进行时，先过安全、成本、兼容三道关

自去年以来，和利鹏和他的团队开始观察到了市场新的需求变化，AI视频会议市场需求正在起量。但同时，对于大多数企业来说，搭建一款AI驱动的视频会议系统还是会需要面临许多问题。

如AI会议带来体验升级的同时，如何保证数据安全？如何根据企业性质快速实现个性化定制？新系统如何兼顾与现有会议室设备的兼容性，实现更低成本的利旧？解决这些问题，企业往往需要耗费大量的时间、精力和经济成本。

灵动会议为合作伙伴提供另一种选择：选择开箱即用的aPaaS会议服务，免去大量重复、复杂的中间工作，专注于自身应用的开发和使用。

面对数据安全问题，很多政企倾向于私有云或混合云部署方式。灵动会议支持私有化、混合云、公有云等多种部署模式，同时支持无缝备份与切换，这就能够确保业务的连续性和数据的安全性。

面对定制化难度问题，灵动会议采用aPaaS低代码设计，通过提供灵活的API接口、以及UI组件和即插即用的集成功能，使得开发者可以在较短的时间内完成集成，无需进行大量的底层开发。

开发者可以通过现成的UI组件快速集成会议功能，包括会议召集、虚拟背景、屏幕共享、白板互动等，几乎涵盖了所有常用功能，仅需4个方法和回调，便可定制UI，大大缩短开发周期，加速应用上线。

面对传统MCU设备利旧痛点，灵动会议提供了最新的解决方案：SFU+MCU混合架构。据悉，MCU模块与SFU模块直接集成，抛弃了传统的网关架构，通过裸流通信技术实现终端设备与云端的直接互通，解决了网关集成时的画质损失问题，并支持多画面灵活组合。

▲SFU+MCU混合架构打破传统模式

目前，已有不少云会议、传统MCU、大中型行业客户用上了灵动会议。

以某头部云厂商为例，其目前已利用灵动会议打造了高效的云会议平台。该客户面临的是Zoom平台到期和架构替换问题，声网不仅为其提供了全球覆盖的公有云服务，使其在保存原有应用的情况的无缝替换架构，还助其快速扩展了所需的同声传译等新能力，最终节省系统运维成本百万投入。

以某传统硬件会议MCU厂商为例，其在行业里耕耘十几年，架构无法满足客户关于云视频和智能化的新需求。其曾求解于开源WebRTC、第三方的云厂商，都面临了投入成本高、体验受损等问题。灵动会议的SFU+MCU混合架构帮助其进行整个系统完整升级，从而获得了更好的发展机会。

可以看到，各类厂家都可以基于声网aPaaS灵动会议快速实现云化、智能化升级。

结语：大模型时代，20年视讯行业迎来新拐点

20多年来，视频通讯行业发生了巨大的变化。从硬件视频系统到云会议，再到智能会议，技术和会议的形式不断迭代。在声网等技术赋能者及各路会议厂商的推动下，视频会议产品核心正从一个通道进化为智能协作平台。

与此同时，视讯用户的核心需求仍然没有变，那就是不断提高会议效率并达成决策目标。当下，大模型技术为这一目标实现带来了新的动力，20年视讯行业迎来新拐点，以声网灵动会议为代表的新一代AI会议方案也正成为新的行业发展引擎。

正文

开会这个技术活，让AI+RTE 玩出了新高度

相关阅读

雷军喊话欢迎大家投递简历：小米南京区域总部招募人才

大模型六小龙第一起分拆：消息称零一万物计划独立 AI 游戏公司“绿洲”

Niantic 宣布将根据《宝可梦 Go》玩家数据构建“大型地理空间模型”

月之暗面 Kimi 创始人杨植麟称 AI 人才回流大厂是行业规律，已主动做业务减法

目录[+]