搜索
当前所在位置:首页 >> 综合

【长沙医科大学偷拍视频下载】比 Sora DiT 架构早两个月的 U

发布时间:2025-09-13 13:47:48 作者:mbr 点击:791 【 字体:


「Sora 出来之后,架构团队就开始连轴转,早两没休息过。个月」这是架构 AI 科技评论了解到的,目前国内诸多 AIGC 创业公司的早两现状。

Sora 的个月长沙医科大学偷拍视频下载确让世界范围内的创业公司措手不及。随之而来的架构,有一种悲观论调和怀疑态度:创业公司和 OpenAI 拼术是早两否有意义?是否有必要做同样的事情?有多大的生存空间?

诚然,要弥合和 OpenAI 的个月差距并非易事,基于算力、架构投资等前提条件,早两 OpenAI 的个月效果自然不是短期内可以达到,但是架构也不见得到了技术层的创业公司无路可走的地步。

清华系创业团队生数科技提出的早两技术路线,和 Sora 在架构路线上完全一致,个月均是提出了将Transformer 与扩散模型融合的思路,在具体的实验路径上也一致。并且,生数科技的 U-ViT 比 OpenAI 的 DiT 早了两个月。

甚至,彼时的 CVPR2023 选择收录了U-ViT,而将 DiT 拒稿。广州学院绯闻全集

目前,生数科技的多模态大模型全链路均自主训练、自主研发,是全球首个将Transformer架构引入扩散模型的骨干网络。在文生图、文生视频、文生3D、图生3D等多项任务中已经初见成效。

近来,也完成了由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲跟投的数亿元融资,是目前国内多模态大模型赛道的最高融资额。

生数科技 CEO 唐家渝表示,面对国内多模态大模型的竞争,生数科技会承担引领国内底层技术创新的角色。

即使在 Sora 的笼罩下,国内的多模态大模型也不无机会。


全栈自研的 MaaS

2023年3月,团队开源了全球首个基于Diffusion Transformer架构(U-ViT)的多模态扩散大模型 UniDiffuser,在参数量和训练数据规模上,与Stable Diffusion直接对齐。在架构上,UniDiffuser 比最近才采用 DiT 架构的 Stable Diffsion 3 领先了一年。

除了单向的文生图以外,Unidiffuser支持更通用的图文任务,能够实现图生文、图文联合生成、图文改写等多种功能。

在统一化架构的思路下,生数科技持续 Scale up。在图文模型的训练中,参数量从最早开源版的1B不断扩展至3B、7B、10B及以上。同时在此基础上,通过拓展空间维度和时间维度,逐步实现 3D 生成与视频生成。同时面向应用层推出了视觉创意设计平台PixWeaver与3D 资产创建工具 VoxCraft。

PixWeaver是一款自动化的视觉创作工具,支持AI生图、AI生视频功能,中英文输入、秒级生成,融合多元风格,具备出色的语义理解和丰富的画面表现。(体验地址:https://pw.shengshu-ai.com/,目前AI视频功能由于新版本迭代暂关闭试用)

在图像生成方面,支持高质量的文生图,在画面联想丰富度、美观性等方面优于业内同类模型。


比 Sora DiT 架构早两个月的 U-ViT,由这家中国 AIGC 公司提出

并且,其语义理解能力尤其突出。

比 Sora DiT 架构早两个月的 U-ViT,由这家中国 AIGC 公司提出

(描述词:公园里的竹林里挂着红色灯笼,旁边盛开着粉红色的梅花,远处是一座亭台楼阁,夕阳洒在蜿蜒的公园小路呈现出温暖的感觉,宝丽来照片风格,真实摄影)

比 Sora DiT 架构早两个月的 U-ViT,由这家中国 AIGC 公司提出

在3D 生成方面,VoxCraft可实现高精度与最快10秒级的模型生成。

比 Sora DiT 架构早两个月的 U-ViT,由这家中国 AIGC 公司提出

并推出全球首个4D动画生成,基于视频和描述词,输出逐帧的运动3D动画,自动绑定骨骼动作,支持360°全景视角。

此外,该模型还可以通过文本对话或手动调参的方式灵活编辑3D场景,包括添加物体、删除物体等,可实时查看变化。

VoxCraft 相较于同类型的3D资产创建的自动化工具,核心优势在于:

精度高:贴图分辨率可达到2048*2048,几何结构的规整度高,色彩与材质质感真实度高;

速度快:在单卡设备上,单个3D模型生成最快可在数分钟内生成;

可用性强:支持Mesh的同步生成,支持高模、低模的定制,可直接对接工业管线;

丰富度高:覆盖资产类型多,通用性强,支持文本或图像引导。


最接近 Sora 技术架构的中国团队

从技术架构来看,生数科技是最接近于 Sora 的中国团队。

OpenAI推出的Sora模型,其核心技术点之一,是将视觉数据转化为Patch的统一表示形式,并通过Transformer和扩散模型结合,展现了卓越的scale特性。无独有偶,最近发布的Stable Diffusion 3采用了同样的架构。

Transformer架构被熟知应用于大语言模型,该架构的优势在于scale特性,参数量越大,效果越好;而在传统视觉任务(图像和视频生成)中,业内普遍采用常规的卷积路线的扩散模型(基于SD开源的思路),该路线能实现一定的效果,但扩展性不好。DiT将Transformer架构与扩散模型融合,把大语言模型的扩展性、涌现性复制到了视觉任务上。

其实早在2022年9月,生数科技团队早期成员就提交了一篇名为《All are Worth Words: A ViT Backbone for Diffusion Model》的论文,这篇论文提出了基于transformer的网络架构U-ViT。

对比来看,两项工作采用了相同的patch embedding、patch size,都得出了同样的结论patch size为2*2是最理想的,在模型参数量上两者都在50M-500M左右的参数量上做了实验,最终都证实了scale特性。

不过DiT仅在ImageNet上做了实验,U-ViT在小数据集(CIFAR10、CelebA)、ImageNet、图文数据集MSCOCO均做了实验。此外,相比传统的 Transformer,U-ViT提出了一项“长连接”的技术,大大提升了训练收敛速度。

但U-ViT同样展示了在视觉任务下的优异能力,与当时同阶段的SD1.5 比较,Unidiffuser效果是基本持平的。更重要是,Unidifuser扩展性更强,能基于一个底层模型完成图文之间的任意生成。

生数团队的几位核心成员近几年于ICML、NeurIPS、ICLR 等人工智能顶会发表相关论文近30篇,是现阶段在该领域发表论文成果数最多的国内团队。

抱持着底层算法原始创新、从零开始自主训练的态度,生数科技团队也形成了多项能与其他公司拉开差距的技术成果。

无训练推理框架Analytic-DPM

扩散模型的一大局限是计算速度缓慢,研究加速算法是提升扩散模型应用效果的难点。

2022年,团队核心成员提出了一种无训练推理框架:Analytic-DPM,使用蒙特卡洛方法和预训练的基于得分模型来估计方差和 KL 散度的分析形式。该方法可以在无需额外训练的情况下,直接估计得到最优方差,该成果在理论贡献方面具有重要意义。

另外从应用效果看,免训练推理框架的提出大大加速了模型的采样效率,经对比,Analytic-DPM经过 50 步采样的效果优于 DDPM 采样 1000 步的效果,加速了近 20 倍。

该论文被评选为ICLR2022杰出论文,也是该会议首篇由中国大陆单位独立完成的获奖论文,此外该成果也被OpenAI 应用于 DALL·E2 模型处理方差的策略中。

多模态基础大模型 UniDiffuser

2023年3月,团队开源国内首个基于Transformer的多模态扩散大模型UniDiffuser,采用了基于transformer的网络架构U-ViT,在开源的大规模图文数据集LAION-5B上训练了一个十亿参数量的模型,实现基于一个底层模型能够高质量地完成多种生成任务。雷峰网(公众号:雷峰网)雷峰网雷峰网

除了单向的文生图,还能实现图生文、图文联合生成、无条件图文生成、图文改写等多种功能,能够实现任意模态之间的转化,大幅提升文图内容的生产效率,也进一步提升了生成式模型的应用想象力。

更值得一提的是,从技术路线看,生数科技是国内唯一的原生多模态大模型厂商,原生多模态是基于通用的融合架构对文本、图像、视频等多模态数据进行统一范式的训练,简单类比就是基于一个底层架构实现“GPT4+DALLE3+GPT4V”的统一,而不是通过接口调用不同的模型。生数科技坚持融合架构的原生路线,致力于提升对开放域下复杂交互场景的信息生成能力。

本文作者长期关注 AIGC 落地应用、大模型和数字人领域,欢迎添加微信:s1060788086,交流认知,互通有无。


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

比 Sora DiT 架构早两个月的 U-ViT,由这家中国 AIGC 公司提出

阅读全文
相关推荐

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

元象发布中国最大MoE开源大模型 落地应用登顶港台榜
元象XVERSE发布中国最大MoE开源模型:XVERSE-MoE-A36B,加速AI应用低成本部署,将国产开源提升至国际领先水平。该模型总参数255B,激活参数36B,达到100B模型性能的「跨级」跃 ...

DeepSeek 反思潮:AGI 既被重新审视,又被持续低估

DeepSeek 反思潮:AGI 既被重新审视,又被持续低估
2 月很有意思。一、DeepSeek 反思潮在 DeepSeek 的集体反思潮中,无论是大厂内部的“AGI 创业团队”、还是 AGI 的明星创业公司,都进行了战略调整。很显然,DeepSeek 的暴击 ...

阿德莱德大学吴琦:VLN 仍是 VLA 的未竟之战丨具身先锋十人谈

阿德莱德大学吴琦:VLN 仍是 VLA 的未竟之战丨具身先锋十人谈
作者 | 赖文昕编辑 | 陈彩娴2018 年 6 月,在澳大利亚机器人视觉研究中心ACRV)做博士后研究员的吴琦和博士生 Peter Anderson 首次将 VL视觉-语言)和彼时机器人领域主流的导 ...

解读:物理诺贝尔奖为何颁给了HNN之父和深度学习之父?

解读:物理诺贝尔奖为何颁给了HNN之父和深度学习之父?
就在刚刚,瑞典皇家科学院决定将 2024 年诺贝尔物理学奖授予约翰·J·霍普菲尔德 (John J. Hopfield) 和杰弗里·E·辛顿 (Geoffrey E. Hinton),“表彰他们通过人 ...

CMU 具身智能风云榜:从传统到全面

CMU 具身智能风云榜:从传统到全面
作者 | 赖文昕编辑 | 陈彩娴与位于宇宙中心硅谷湾区的伯克利、斯坦福不同,被视为锈带区复兴唯一希望的卡内基梅隆大学以下简称“CMU”)坐落在上世纪的工业重镇匹兹堡。计算机科学学院的机器人研究所以下简 ...

拓元智慧完成近亿元人民币Pre

拓元智慧完成近亿元人民币Pre
作者 | 赖文昕编辑 | 陈彩娴近日,拓元智慧X-Era AI)宣布成功完成 Pre-A 轮融资,融资金额接近一亿人民币。此轮融资由粤科金融集团、鹏城愿景基金、红鸟启航基金等投资机构共同参与。早在 2 ...

为什么中国只有一个 DeepSeek?

为什么中国只有一个 DeepSeek?
DeepSeek 风暴后,中国的大模型创业圈会发生什么样的变化?近日来,笔者也与多位业内人士进行了探讨,发现国产大模型圈目前出现了两个极端:一个是极端的热血沸腾,另一个则是极端的霜打茄子。前者以积极拥 ...

阿里AI旗舰应用夸克发布全新“AI相机” 提升AI超级框多模态能力

阿里AI旗舰应用夸克发布全新“AI相机” 提升AI超级框多模态能力
4月27日,夸克AI超级框发布全新AI相机,上新“拍照问夸克”功能。基于视觉理解与思考推理的强大模型能力,夸克AI超级框从视觉出发创新下一代搜索体验,进一步理解和回答物理世界中的各类问题。作为阿里巴巴 ...

家务机器人或将再更新?Chelsea Finn团队推出BID新算法,机器人一键变聪明

家务机器人或将再更新?Chelsea Finn团队推出BID新算法,机器人一键变聪明
斯坦福大学的 Chelsea Finn 团队又出新成果了。Chelsea Finn 团队一直是斯坦福走在具身智能研究前沿的团队之一,之前火遍全网的 ALOHA 炒菜机器人就是出自这个团队之手。团队领头 ...

机器人端侧模型的十字路口

机器人端侧模型的十字路口
作者|朱可轩编辑|陈彩娴自 2023 年以来,以大模型为代表的人工智能与以具身智能为代表的机器人成为科技发展的两股重要力量。与此同时,将人工智能算法、尤其是大模型应用于进一步提升机器人智能水平也成为一 ...

对话UCL青年教授赵湖斌:可穿戴式DOT如何重塑脑机接口

对话UCL青年教授赵湖斌:可穿戴式DOT如何重塑脑机接口
我们应当如何实时监控自己大脑的健康状态?以马斯克的Neuralink为代表的侵入式脑机接口,过植入大脑皮层的线状电极直接读取神经信号,实现了高精准度信号采集和脑际交互。但是,侵入式脑机接口方案的风险也 ...

AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025

AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025
Manus 的出现将智能体推入当下 AI 格局的前列,使得这个过去略抽象的概念变得具体可感知。然而行业中也不乏对 Manus 的争议,认为 Manus 没有底层技术创新力,更多的是将现有技术融合从而在 ...
返回顶部