搜索
当前所在位置:首页 >> 时尚

【赵某艳照流出视频流出】实时音视频领域拓荒者的十年

发布时间:2025-09-13 17:30:25 作者:km 点击:28 【 字体:

2015 年,音视域拓声网将WebRTC大会引入中国,频领筹办了第一届面向国内开发者、音视域拓业务人员和用户的频领RTC(实时视音频)大会。在大会开始的音视域拓前夕,现任声网市场VP、频领赵某艳照流出视频流出RTC大会主策人彭小欢失眠了,音视域拓她非常担心明天会不会有人来。频领

一晃十年过去了,音视域拓当年的频领RTC大会早已升级为RTE(实时互联网)大会, 10 月 25 日RTE 2024也如期而至,音视域拓但早已不用担心是频领否有人光顾,现场可谓是音视域拓座无虚席。

实时音视频领域拓荒者的频领十年

图:RTE2024开幕当天的现场

国内大模型领域的「大模型六虎」,其中的音视域拓智谱、MiniMax、零一万物团队都出现在2024年RTE大会上,在ChatGPT发布后的近两年时间里,智谱和MiniMax分别在 tob和 toc两条路线上越走越深,有许多心得可以分享,通义千问团队也带着国内最大开发者生态的经验在RTE大会上加入讨论。

此次RTE大会也不乏AI大牛创业者的身影,例如全球最受瞩目的AI科学家之一,一年前从阿里巴巴离职、躬身入局大模型Infra的贾扬清也出现在RTE大会的主论坛上,分享了他在AI Infra领域创业 18个月后的经验心得以及对RTE+AI的趋势判断。

除此,谷歌、蚂蚁、面壁智能、生数科技、商汤、旷视、WPS、Soul等也在大会上分享了团队过去一年里在ChatGPT时代的酒店情侣翻车全集AI探索。

今年的RTE大会,可谓是大咖云集,AI 内容拉满。

迄今,RTE大会已经是第十届,十年如一日地每年坚持举办,从未间隔。恰逢GenAI爆发,声网深耕的RTC(实时音视频)技术,让人与AI的交互不再局限于文字,也可以通过语音通话进行生动、流畅的低延时交互,这也成为当下国内外大模型厂商新的发力点——多模态。

而今年的RTE大会便提供了一个交流平台,凭借在业界的影响力,吸引各行各业专家参与,使得业内一起共同探索RTE+AI的未来潜力,这也将给RTE和声网带来更多机遇与挑战。

当年,声网CEO赵斌期待“通过RTC这样的大会让开发者使用实时音视频功能像使用水一样简单”,十年后,实时音视频功能成功在各行各业应用,丝滑地融入大众的工作生活中。在此十年之期,也是声网创办的十周年,RTE开始与GenAI结合。

走到今天,一切都源于RTE大会以及背后的声网公司十年前的那份坚持与初心。


1

拓荒到蓬勃:技术布道者到行业风向标

今天,实时音视频(RTC)互动技术已经成为一项基础设施,在我们的日常生活中无处不在。

视频会议、在线课堂、社交平台直播连线PK等众多场景都有实时音视频的支撑,才有了低延迟、低卡顿、高清晰度、沉浸式的互动体验。

十年前,国内实时音视频还是一片荒原,声网看到机会,率先推出RTC PaaS服务以此来打开市场。实时音视频技术门槛较高,仅有WebRTC,开发者依然很难上手实践,而在RTC PaaS模式下,开发者只需调用简单的API接口就能实现实时音视频互动,极大地降低了开发者的门槛和成本。

彼时恰逢移动互联网全面爆发,整个行业生机勃勃,实时音视频也开始寻找落地的契机。

成立后的第二年,声网创始人赵斌意识到实时音视频将是互联网企业必须的工具和功能,声网作为在这片荒原上第一个挥锄头开荒的人,必须担负起技术布道者的责任。

所以在 2015 年,为了让实时音视频行业拥有一个能进行技术交流、行业趋势探讨的机会,声网将WebRTC大会引入中国,筹办了第一届面向国内开发者、业务人员和用户的RTC大会,这也是一个为开发者而生的纯行业技术峰会。

第一届RTC大会议程安排上仅由一个主会场、一个分论坛,以及一个 workshop 组成,就吸引了 700 多名观众参与。之后,声网与参会者约定——一年一会,万象更新。

在第一届WebRTC大会上,W3CWebRTC标准中Media Capture和Streams Specifications核心部分的合编者——“WebRTC标准之父”Dan Burnett出席现场会议,并与伊利诺伊理工学院客座教授Alan Johnston一起,为开发者们进行了约8个小时的培训课程,对于开发者来说,在当时RTC专业知识极度匮乏的年代,犹如久旱逢甘霖。

实时音视频领域拓荒者的十年

2015 年的RTC大会打破了RTC技术布道在国内「三无」状态:无行业会议、无专业书籍、无专业媒体及社区。而在RTE 大会迈入第10年之际,声网也于今年8月正式出版行业首本系统介绍实时互动的技术型科普图书《读懂实时互动》,持续为科普实时互动添砖加瓦。

十年过去了,今天RTE大会已经成为业内当之无愧的“全球规模最大音视频行业峰会”,大会规模扩张到 20 多个论坛,观众数上限一度达到六七千人。

据声网官方统计,这些年间,大会累计影响了 200 多万开发者,覆盖 300 多个行业场景,吸引 2000 多名专家讲师参与分享,成绩斐然。这期间,RTE大会似乎每年都能“押题”成功,成为行业的风向标。

2015 年,在第一届RTC大会上,声网提出“直播连麦”将成为主流玩法,第二年,连麦互动便成为直播风口。

2016 年,声网认为在线教育将成为新风口,第二年,在线教育迎来爆发式增长。

……

2023 年,大会主题是智能、高清,再一次成功预判了未来趋势,24 年年初多模态爆发,Sora、GPT-4o引爆舆论,多模态成为各大模型玩家最重要的发力方向。

当AI成为科技界的主流,RTE第十届便是以“AI 爱”为主题,推出了覆盖AI、出海、Voice AI等 20+行业及技术分论坛。

在此次大会上,声网CEO赵斌认为生成式AI正在驱动IT行业发生大变革,主要体现在四个层面:终端、软件、云和人机界面,其中AI Native Cloud将成为主流。

实时音视频领域拓荒者的十年

Lepton AI 创始人兼 CEO 贾扬清也认为继 Web 云、数据云之后,AI 是云的第三次浪潮。在 AI 云的形态下,实时的交流和智能的结合在用户体验环节非常重要,可以说实时将直接与生产力划上等号。

作为此次大会的主论坛演讲嘉宾,贾扬清分别从 AI 应用、云、GPU 算力云技术以及企业大模型自主性等层面带来了他对 AI 基础设施进化的解读。他认为,今天是最容易建设AI应用的时代,越是简洁的AI模型思路越容易产生优秀的效果。

实时音视频领域拓荒者的十年

本次大会持续了两天,大会上的分享嘉宾集结了当下AI届的名流,包括「大模型六虎」中的智谱、MiniMax、零一万物,还有谷歌、WPS、Soul这些在AI应用落地探索走在前列的企业。他们结合自身业务,分享了过去两年里在AI、大模型方向的探索,这将是给与业界的一笔宝贵经验。

本次大会不仅囊括了RTE+AI发展的前沿技术分享,还将关注点放在了当下大家最关心的AI落地问题上。

大会最精彩的一部分便集中在在圆桌讨论环节,就AI的 6000 亿美金难题,Lepton AI 创始人兼 CEO 贾扬清、MiniMax 合伙人魏伟、面壁智能联合创始人&CTO 曾国洋、Hugging Face 工程师王铁震、Agora 联合创始人 Tony Wang 五位嘉宾一起探讨了从 AI 基础设施到 AI 商业化落地的机会与挑战。

实时音视频领域拓荒者的十年

贾扬清认为基于开源架构的应用会越来越普遍;王铁震呼吁大家不仅要关注开源模型本身,还要重视开源模型的基础设施和数据闭环;魏伟则阐释了在产品和用户服务过程中,文本、语音、音乐、视频这些模型可以很好地帮助艺术、影视、音乐等领域的创作者提高效率,并提出新思路;曾国洋认为未来算力一定会越来越便宜,算力成本优化最终会转化为训练更强大的模型。

在大会上,声网发布了他们的RTE+AI能力全景图,在全景图中,声网从实时 AI 基础设施、RTE+AI 生态能力、声网 AI Agent、实时多模态对话式 AI 解决方案、RTE+AI 应用场景五个维度,清晰呈现了当下 RTE 与 AI 相结合的技术能力与应用方案。

实时音视频领域拓荒者的十年

正如CEO赵斌所说,生成式AI与RTE结合带来的场景创新,将成为下一个十年的主题。


2

新机遇:

实时多模态是通向AGI的必由之路

今年 5 月,GPT-4o一经发布便再次引起业内热议,其展示出的实时语音交互能力让人印象深刻,开创了AI实时语音交互的先河。

在发布会上,GPT-4o展示了大幅降低的语言延迟,平均 320 毫秒的反应时间,让AI与人类的对话第一次接近人类真实对话的反应速率。

实时的交流和智能的能力是人机结合的重中之重,正如贾扬清在RTE大会上所说,实时可以跟生产力划等号。

但要达到人类可接受范围内的「实时」,端到端实时多模态的崛起只是近来取得技术突破的一条明显,它从思考速度上缩短了语音的交互实践,而另一条暗线则是 RTC(实时音视频,Real-Time Communications)技术的进步。

而GPT-4o正是在采用RTC方案后,便展现出了自然、流畅的低延时语音交互体验。而且在实际应用中,用户的设备很多时候不能始终联网,所以无论多强大的模型都要依靠RTC技术来实现实时对话。

因此,RTC是将多模态大模型跟实时互动场景连接起来的关键技术桥梁。

声网CEO赵斌称,生成式AI有一个大的、清晰的方向就是向多模态清晰深度进化,除了提供GPT-4o发布会上令人惊艳的情感拟人对话之外,更重要的是打开大模型进一步智能进化的数据需求。

目前文字训练数据基本上已经被充分利用,语言本身是一种声音化的文字,能够提供的信息和数据的空间将会被放大很多倍,并且超过文字,自然环境的声音和视觉数据的获取、运用,将给大模型提供几乎无限的数据空间。因此多模态成为当下的重要发展方向。

在推进多模态清晰深度进化上,声网通过过去和多个行业伙伴打磨、对接、深度实验、测试、评估,发现多模态对话体验存在两个关键侧面:(1)声音体验包括延迟、语气、情感、情绪、口音,这些都是人与大模型进行人机对话时体验的关键角度。(2) 人与大模型支持的 agent 对话时的互动体验中,最核心的就是「打断行为」,如果在对话中打断不自然,出现抢话、不知道如何顺利开展下一段讨论等行为,也会对人机交互的效果产生影响。

而这些要通过对现有的RTE技术栈等基础设施进行改进,大模型才有机会大规模参与到与人的各种对话,在各种场景、形态、模型下开展直接语音对话。未来RTE基础设施将会成为多模态大模型AI Infra的关键部分。(注:RTE在提供RTC音视频服务的基础上进一步提供了更加丰富和灵活的实时互动能力,让开发者可以根据不同的场景需求,自由地选择和组合各种实时互动能力,打造出更加个性化和差异化的实时互动体验)。

赵斌认为只有把RTE技术运用地足够好,部署到全球各个云和边缘节点,大模型的多模态能力才能普遍地、高质量地走进各种实时互动场景。

而在这场多模态带来的实时对话式AI的竞争中,由于RTE技术门槛较高,那么接下来,只有拥有核心技术和具备行业解决方案能力的实时音视频厂商才能接住大模型带来的这波新机遇。

在国内市场,声网不仅是头部玩家,还是实时音视频领域的拓荒者,深深扎根行业已达十年。

10 月初 OpenAI 发布了实时API公测版,瞄准了GPT-4o语音到语音的AI应用和智能体,还公布了三家语音API合作者的身份:LiveKit、Twilio,以及 Agora。

其中,Agora的兄弟公司便是声网,从底层的RTC等音视频能力来看,两个兄弟公司都有一致且深厚的技术积累。

相较于市面上大部分 2-3 秒的AI互动延迟实践,声网的对话式AI解决方案将对话响应延时优化至500毫秒,该方案以语音为核心,支持视频扩展,实现文本/音频/图像/视频的组合输入&输出,通过丰富的功能构建真实、自然的 AI 语音交互体验。

而声网RTE技术在AI上的探索,并不是追风口的一时兴起,早在四年前,transformer 在学术界崭露头角不久,声网是业内首家开始把AI技术引入RTE技术栈的公司,用于改善音视频传输保障。

不仅如此,紧跟兄弟公司Agora的步伐,声网跟 MiniMax 正在打磨国内第一个Realtime API。声网CEO赵斌在RTE2024上展示了声网基于 MiniMax Realtime API打造的人工智能体。在演示视频中,人与智能体能轻松流畅地进行实时语音对话,即便人打断提问、进行新的提问,智能体也能像人一样反应灵敏。

可以预见的是,AI跟RTE结合,正给人机交互带来诸多可能,纯文字互动的大模型无法实现AGI,RTC加持下的实时多模态将是必由之路。「雷峰网(公众号:雷峰网)消息」








雷峰网原创文章,未经授权禁止转载。详情见转载须知。

实时音视频领域拓荒者的十年

阅读全文
相关推荐

Anthropic 联设 1 亿美元 AI 初创基金;OpenAI推出“小”模型GPT

Anthropic 联设 1 亿美元 AI 初创基金;OpenAI推出“小”模型GPT
今日融资快报Anthropic 联手硅谷风险投资公司 Menlo Ventures 设立 1 亿美元 AI 初创基金Menlo Ventures 是 Anthropic 的重要投资者之一,双方合作推出 ...

大模型疯狂 Rush,上海 AI Lab 回归语言建模本质

大模型疯狂 Rush,上海 AI Lab 回归语言建模本质
2023 年,是国内外大模型疯狂 rush 的一年。在这场白热化的竞争中,大模型过剩带来的市场挤压感正时刻提醒着参与者所面临的行业洗牌风险。各厂商深知,基础通用大模型,注定是少数人的游戏。为了赢得这场 ...

MediaTek 举办天玑开发者大会 MDDC2024,携手产业伙伴共创生成式 AI 新生态

MediaTek 举办天玑开发者大会 MDDC2024,携手产业伙伴共创生成式 AI 新生态
2024年5月7日,MediaTek 举办天玑开发者大会2024MDDC 2024),本届大会以“AI予万物”为主题,深入研讨生成式 AI 技术为移动生态带来的变革与全新机遇。会上,MediaTek ...

埋头钻研一年后,阶跃星辰交出了第一份答卷

埋头钻研一年后,阶跃星辰交出了第一份答卷
历经去年持续一年之久的百模大战后,今年伊始,落地应用开始成为大模型的主流叙事方式。本以为,在月之暗面、智谱、MiniMax、百川、零一万物等一众明星企业之后,关于通用大模型的格局既定,没想到,平静水面 ...

UIUC 李博:GPT

UIUC 李博:GPT
GPT-4更智能、更听话,却也更傲慢。作者 | 郭思编辑 | 陈彩娴GPT 可靠吗?关于这个问题,学术界有了一个新的答案。近日,伊利诺伊大学香槟分校UIUC)的李博教授及其团队与斯坦福大学共同发表的工 ...

商汤即将发布“日日新5.5”,现场将签约多项重磅合作

商汤即将发布“日日新5.5”,现场将签约多项重磅合作
商汤科技将发布“日日新5.5”,混合模态能力大幅提升据消息,2024年7月5日,在世界人工智能大会WAIC 2024)上,商汤科技在“大爱无疆·向新力”人工智能论坛将发布“日日新5.5”版本,全面升级 ...

阿里与上交大提出 LLM 长文本计算新解法:可处理文本长达 1900k 字节、效率提升 2.4 倍

阿里与上交大提出 LLM 长文本计算新解法:可处理文本长达 1900k 字节、效率提升 2.4 倍
编译 | 郭 思编辑丨陈彩娴在实际应用大模型的过程中,尤其是处理长文本的上下文信息时,如何高效灵活地调度计算资源成为一个学术界与工业界共同关注的问题。大语言模型所能容纳的上下文长度直接影响了诸如 Ch ...

商汤即将发布“日日新5.5”,现场将签约多项重磅合作

商汤即将发布“日日新5.5”,现场将签约多项重磅合作
商汤科技将发布“日日新5.5”,混合模态能力大幅提升据消息,2024年7月5日,在世界人工智能大会WAIC 2024)上,商汤科技在“大爱无疆·向新力”人工智能论坛将发布“日日新5.5”版本,全面升级 ...

香港大学李弘扬:「2025年具身智能新一代闭环智能系统」迫在眉睫丨具身先锋十人谈

香港大学李弘扬:「2025年具身智能新一代闭环智能系统」迫在眉睫丨具身先锋十人谈
作者丨朱可轩编辑丨陈彩娴去年年底,全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World 发布,在机器人领域引起了广泛关注。AgiBot Worldht ...

字节跳动发布豆包大模型,主力模型比行业价格低99.3%

字节跳动发布豆包大模型,主力模型比行业价格低99.3%
5月15日,字节跳动豆包大模型在火山引擎原动力大会上正式发布。火山引擎总裁谭待介绍,经过一年时间的迭代和市场验证,豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一,目前日均处理1200亿To ...

个性经济时代,MiniMax 语音大模型如何 To C?

个性经济时代,MiniMax 语音大模型如何 To C?
大约一个月前,距离 GPT Store 上线还有两周,一位名为 Kyle Tryon 的国外开发者在个人博客上分享了其基于 ChatGPT Plus 开发的三个 Agent又称“GPTs”),其中一个 ...

价格战之后,智谱来到商业化的下一站

价格战之后,智谱来到商业化的下一站
「雷峰网(公众号:雷峰网)消息」刚刚过去的 5 月里,中国 AI 大模型领域掀起一场价格战,激起行业热议。这次价格战的两股势力分别是互联网大厂和大模型创业公司,以字节、阿里云、腾讯和智谱为主要参战代表 ...
返回顶部