搜索
当前所在位置:首页 >> 热点

【重庆高中门事件攻略】IDEA研究院发布DINO

发布时间:2025-09-13 17:38:13 作者:fu 点击:14 【 字体:

计算机视觉技术在真实世界的研究院应用场景十分广泛。然而,研究院过去主流的研究院小模型方案,难以应对碎片化、研究院多变的研究院长尾需求,限制了技术落地规模。研究院重庆高中门事件攻略

源自自然语言研究的研究院Transformer架构诞生后,视觉模型与之结合,研究院走上一条“从小变大,研究院从N变1”之路。研究院自2022年起,研究院IDEA团队从目标检测出发,研究院打造精准度、研究院深圳大学内幕排名通用性、研究院泛化能力兼优的研究院DINO系列视觉大模型。 

11月22日,IDEA大会在深举办,在本次大会上,IDEA研究院发布了该系列最新的DINO-X通用视觉大模型,拥有真正的物体级别理解能力,实现开放世界(Open-world)目标检测。无需用户提示,直接检测万物。

与此同时,IDEA团队还推出行业平台架构,通过一个大模型基座,结合通用识别技术结合,让模型不需重新训练,就可边用边学,支撑多种多样的B端应用需求。


万物识别:无须指引,罕物尽览 


全面检测:DINO-X在物体检测领域树立新标杆,无需任何提示,即可识别几乎所有物体,并给出其类别,包括罕见的长尾物体(出现频率低但种类繁多的物体)。

IDEA研究院发布DINO-X目标检测视觉大模型

在零样本评估设置中,DINO-X Pro在业界公认的LVIS-minival数据集上取得了59.7%的AP,遥遥领先于其它现有算法。在LVIS-val数据集上,DINO-X Pro也表现亮眼,取得了52.4%的AP。具体到LVIS-minival数据集上的各个长尾类别评估中,DINO-X Pro在稀有类别上取得了63.3%的AP(比Grounding DINO 1.5 Pro还要高出7.2%),在常见类别上取得了61.7%的AP,在频繁类别上取得了57.5%的AP。DINO-X称得上目前业界检测最全的通用视觉模型。

泛化和通用性:得益于超过1亿高质量样本的大规模数据集多样化训练,DINO-X对未知场景和新物体具有更强的适应性。这意味着在面对未见过的物体或环境时,模型仍能保持高水平的检测性能。这种超强的泛化能力,使其在实际应用中更加灵活。   

多任务感知与理解:DINO-X整合了多个感知头,支持包括分割、姿态估计、区域描述和基于区域的问答在内的多种区域级别任务,让感知到理解逐步成为了现实。

长尾目标检测优化:为了支持长尾目标的检测任务,DINO-X不仅支持文本提示和视觉提示,还支持经过视觉提示优化的自定义提示。

 

开放世界:服务丰富场景,迈向具身智能

 

DINO-X的万物识别能力,让其拥有了对开放世界(Open World)的视觉感知,轻松应对真实世界中的众多不确定性和开放环境,赋能具身智能、大规模多模态数据的自动标注、视障人士服务等高难度场景。

对具身智能而言,开发环境感知和理解是核心能力,这其中的视觉感知更是机器和物理世界交互的基础。近期,聚焦人居环境具身智能核心技术攻关的福田实验室正式挂牌,该实验室正式由IDEA研究院与腾讯合作组建,致力于打造最前沿的具身智能创新平台。

多模态模型通常需要处理大量的图片并生成图文对,而仅依靠人工标注的方式不仅耗时、成本高,而且在面对海量数据时难以保障标注的一致性和效率。DINO-X的万物识别能力,可以帮助标注公司快速完成大批量的高质量图像标注或者为标注员提供自动化的辅助结果,从而降低手工标注的工作量。

视障人士独立性和生活质量的提升对信息获取与感知等方面有着极高的要求,DINO-X的万物识别能力恰逢其时地为助盲工具开发带来福音,为视障人士的未来生活带来美好希望。

在自动驾驶、智能安防、工业检测等领域,DINO-X也将发挥关键作用。其卓越的通用检测能力,使得系统能够应对各种复杂场景,识别出传统模型难以检测的物体,为产业升级和社会发展注入新的活力。

IDEA研究院发布DINO-X目标检测视觉大模型

 Dino-X基座大模型零样本检测能力,为广大中小企业客户提供便捷高效的计数和标注工具 

IDEA研究院一系列视觉大模型,包括DINO-X,为解决业务场景现存的小模型繁多、维护迭代成本高昂、准确率不足等问题,提供了可行的方案。IDEA研究院与多家企业联合开展视觉大模型及应用场景的探索研究工作,在视觉大模型的落地方面取得了实质性进展。

一方面,有别于市场上的以语言为基础的多模态大模型基于全图理解的方法, 通过在物体级别的理解上加入语言模块优化大模型幻觉问题。另一方面结合自研的“视觉提示优化”方法,无需更改模型结构,不用重新训练模型,实现小样本下的场景化定制。 IDEA研究院发布DINO-X目标检测视觉大模型

IDEA研究院通用视觉大模型行业平台架构

从DINO到DINO-X,IDEA研究院始终站在视觉感知技术的前沿。通过对开放世界的探索和对具身智能的赋能,DINO-X的卓越性能和通用检测能力更加凸显。雷峰网(公众号:雷峰网)雷峰网

值得一提的是,IDEA 研究院也开放了DINO-X API: 

https://user.deepdataspace.com/login?redirect=https%3A%2F%2Fcloud.deepdataspace.com%2Fapply-token

有关DINO-X 的技术细节,请参考同期发布的论文。

► 论文链接:https://arxiv.org/abs/2411.14347

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

IDEA研究院发布DINO-X目标检测视觉大模型

阅读全文
相关推荐

戴盟机器人王煜:「具身技能」才能发挥人形机器人的作用

戴盟机器人王煜:「具身技能」才能发挥人形机器人的作用
作者:赖文昕编辑:岑峰本月,在爆火的世界人工智能大会WAIC 2024)中,人形机器人「十八金刚」成为了会场中当之无愧的焦点。由青龙、智元-远征A2、宇树-H1、傅利叶-GR-1、星动纪元-XBot- ...

我用AI帮义乌老板重新设计全红婵“丑鱼”拖鞋

我用AI帮义乌老板重新设计全红婵“丑鱼”拖鞋
作者:马蕊蕾编辑:林杰鑫最近巴黎奥运会火得不止运动员,和他们相关的“奥运”同款,商品搜索量和销量一路暴涨。全红婵的同款“丑鱼”拖鞋,这周在某宝的上升热度提升了113%,搜索关键词全红婵,第一个提示词就 ...

达摩院跨入 AIGC 深水区,发布一站式 AI 视频创作平台「寻光」

达摩院跨入 AIGC 深水区,发布一站式 AI 视频创作平台「寻光」
年初,OpenAI 推出文本-视频生成模型 Sora,只需输入提示文本描述,或输入一张图片,Sora 就能生成类似电影大片的逼真场景视频,前所未有的新奇观感,让大众直呼「现实不存在了」。惊叹之余,So ...

四个月融两轮,千寻智能获 2 亿元天使轮融资;大模型公司卓世科技获亿元人民币 B+ 轮融资;小鹏机器手首次亮相丨AI情报局

四个月融两轮,千寻智能获 2 亿元天使轮融资;大模型公司卓世科技获亿元人民币 B+ 轮融资;小鹏机器手首次亮相丨AI情报局
今日融资快报四个月融两轮,具身智能机器人公司千寻智能获得2亿人民币天使轮融资千寻智能创始人兼CEO韩峰涛在机器人行业拥有十余年丰富经验,曾任珞石机器人联合创始人&CTO,是国内高性能轻型工业机 ...

万字实录:VLA 范式,具身智能的曙光与迷雾丨GAIR Live

万字实录:VLA 范式,具身智能的曙光与迷雾丨GAIR Live
整理丨赖文昕编辑丨陈彩娴VLA视觉-语言-动作模型)作为具身智能领域的关键新范式,能有效整合视觉信息、语言指令与行动决策,显著提升机器人对复杂环境的理解和适应能力,对推动机器人从单一任务执行向多样化场 ...

Neuralink发布超能力V0.2版本:CAD设计、CS轻松拿捏

Neuralink发布超能力V0.2版本:CAD设计、CS轻松拿捏
刚刚,Neuralink分享了脑机接口研究的最新进展:第二位参与者成功植入Neuralink,接入五分钟就能用意念控制光标,还能使用CAD软件,玩《反恐精英》,So easy!马斯克在推特上转发了这一 ...

阿里云CTO周靖人:阿里云百炼服务客户数从9万增长至23万,涨幅超150%

阿里云CTO周靖人:阿里云百炼服务客户数从9万增长至23万,涨幅超150%
7月5日,在上海世界人工智能大会上,阿里云CTO周靖人公布近期通义大模型和阿里云百炼平台的最新进展。近2个月,通义千问开源模型下载量增长2倍,突破2000万次,阿里云百炼服务客户数从9万增长至23万, ...

AI 图像生成平台 LiblibAI 融资总额达数亿元;Meta 曝训练 Llama 3 每 3 小时「罢工」一次丨AI情报局

AI 图像生成平台 LiblibAI 融资总额达数亿元;Meta 曝训练 Llama 3 每 3 小时「罢工」一次丨AI情报局
今日融资快报AI 图像生成平台 Liblib AI 融资总额达数亿元 AI图像生成平台 LiblibAI哩布哩布AI一年内,已经完成了三轮融资,总金额达数亿元人民币,天使轮投资方为源码资本、高榕创投和 ...

马斯克的「xAI」计划

马斯克的「xAI」计划
在马斯克的商业帝国中,每一块新增的拼图都不仅仅是战略的延伸,更是对未来的一次大胆延伸与规划。8月14日下午,这个帝国又迎来了一个历史性时刻——xAI 正式发布了新一代的 Grok 2 大模型。在LMS ...

为人工智能赋予机器人躯体的“登月计划”项目,倒在具身智能热潮之前

为人工智能赋予机器人躯体的“登月计划”项目,倒在具身智能热潮之前
仿生人会梦见电子羊吗?或许答案就在现代机器人的世界里。Google X 前任副总裁、Everyday Robots 前任 CEO Hans Peter Brondmo 说,在 Everyday Rob ...

机器人公司 Swiss

机器人公司 Swiss
今日融资快报AI机器人 Swiss-Mile 筹集 2200 万美元种子资金,亚马逊创始人贝佐斯领投,估值超1亿美元Swiss-Mile 是苏黎世联邦理工学院机器人系统实验室的衍生公司,正在开发自主机 ...

发布三个月,豆包大模型综合能力提升20.3%,应用落地再提速

发布三个月,豆包大模型综合能力提升20.3%,应用落地再提速
8月21日,火山引擎AI创新巡展在来到上海。此次巡展会,火山引擎发布了豆包大模型的一系列产品升级,并携手多点 DMALL 成立零售大模型生态联盟。火山引擎总裁谭待表示,较3个月前,最新版豆包大语言模型 ...
返回顶部