当前位置: 首页>资讯 >

【快播报】小扎亲自官宣Meta视觉大模型!自监督学习无需微调丨开源Demo可玩

来源: 量子位 | 时间: 2023-04-19 03:01:24 |

萧箫 发自 凹非寺 量子位 | 公众号 QbitAI

无需文字标签, 完全自监督 的Meta视觉大模型来了!

小扎亲自官宣,发布即收获大量关注度——


(资料图片仅供参考)

在语义分割、实例分割、深度估计和图像检索等任务中,这个名叫 DINOv2 的视觉大模型均取得了非常不错的效果。

甚至有超过当前最好的开源视觉模型OpenCLIP之势。

虽然此前Meta就发布过自监督学习视觉大模型DINO,不过这次AI识别图像特征的能力显然更进一步,准确分割出了视频中的主体:

可别以为DINOv2通过自监督学会的只有图片分割。事实上,它已经能根据不同类别、不同场景下的照片,准确识别出同种物体(狗)的头部、身体和四肢长在哪:

换而言之,DINOv2自己学会了找图像特征。

目前Meta官方不仅已经放出了开源代码,而且还给了网页版Demo试玩。有网友内涵:

什么叫开源,LLaMA,SAM,DINOv2这才叫开源!

一起来看看,DINOv2的效果究竟如何。

准确识别不同画风的同种物体

事实上,DINOv2是基于上一代DINOv1打造的视觉大模型。

这个模型参数量是10亿级,也仍然是视觉Transformer架构(ViT),但与DINO不太一样的是,这次DINOv2在数据集上经过了精心挑选。

具体来说,DINOv2构建了一个数据筛选pipeline,将内容相似的图片精心筛选出来,同时排除掉相同的图片:

最终呈现给DINOv2的训练数据图片虽然 没有文字标签 ,但这些图片的特征确实是相似的。

采用这类数据训练出来的视觉模型,效果如何?

这是DINOv2在8个视觉任务上的表现,包括语义分割、分类、深度估计等,其中橙色是自监督方法的效果,深粉色是弱监督方法的效果。

可以看见,经过自监督学习的视觉模型,表现上已经与经过弱监督学习的模型性能相当。

实际效果也不错,即便在一系列照片中,相同物体的画风并不相似,DINOv2也能准确识别它们的特征,并分到相似的列表中。

如(a)组中都具有翅膀的鸟和飞机、(b)组中的大象和大象雕塑、(c)组中的汽车和汽车玩具模型、(d)组中的马和涂鸦版马:

而且从PCA(主成分分析)图像效果来看,DINOv2不仅能准确分类,还能用不同颜色标出它们“相同”的部分,例如象鼻都是绿色、车轮都是红色、马的尾巴是黄色等。

换而言之,DINOv2能理解这些图像中的相似之处,就像人会形容飞机“看起来像一只鸟”一样。

目前DINOv2已经放出Demo,我们也试了试它的实际效果。

Demo直接可玩

官网已经开放语义分割、图像检索和深度估计三大功能的试玩。

据Meta介绍,这几个任务中,DINOv2在大多数基准上超过了目前开源视觉模型中表现最好的OpenCLIP。

我们先来看看 深度估计 的效果。

值得一提的是,在效果更好的情况下,DINOv2运行的速度也比iBOT更快,相同硬件下只需三分之一的内存,运行速度就能比DINOv2快上2倍多。

这是Meta论文中与OpenCLIP在实际例子上的比较效果:

我们用这张猛男版新宝岛试一下,看起来还不错,即使是高糊图片也能比较好地估计出深度:

接下来是 语义分割 的效果,这里也先给出Meta论文中的数据对比情况:

这里也给出OpenCLIP和DINOv2的对比,中间的图片是OpenCLIP的效果,右边是DINOv2分割的效果:

我们也用一张办公室的图片试了一下,看起来DINOv2还是能比较准确地分割人体、物体的,但在细节上会有一些噪点:

最后是 图片检索 。

官网上给出的图片效果还是挺不错的,输入铁塔照片,可以生成不少含铁塔的相似艺术图片:

这里我们也试了试,输入一张华强买瓜,给出来的艺术图片大多数与西瓜有关:

那么,这样的自监督视觉大模型可以用在哪里?

从Meta给出的视频来看,目前有一些比较环保的用途,例如用于估计全球各地的树木高度:

除此之外,如同扎克伯格所说,DINOv2还能被用于改善医学成像、粮食作物生长等。当然这里小扎还进一步强调:

可以被用于制作更具沉浸感的元宇宙。

嗯,看来Meta的元宇宙路线还将继续……

试玩Demo地址: https://dinov2.metademolab.com/demos

项目地址: https://github.com/facebookresearch/dinov2

参考链接: https://www.facebook.com/zuck/posts/pfbid02f3chCYQphfYnzRaDXeJxsT5EmyhbrFsjqLaU31KuTG63Ca4yMXFcDXQcukYPbWUMl

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

关键词:

 

热文推荐

【快播报】小扎亲自官宣Meta视觉大模型!自监督学习无需微调丨开源Demo可玩

萧箫发自凹非寺量子位|公众号QbitAI无需文字标签,完全自监督的Meta视觉大模型来了!小扎亲自官宣,发布即

2023-04-19

网络监控器_网眼监控|百事通

1、网眼监控软件可以监控到被监控者从开机以后的一切操作,包括上网,聊天(包括内容,包括msn,qq,雅虎等等

2023-04-19

龙眼为何又叫桂圆?|通讯

新鲜的是龙眼-水果,干的是桂圆-补品,也就是说龙眼晒干了就是桂圆。由于以前水果不能储藏,不利于运输,龙

2023-04-19

ARJ21飞机为何能结缘印尼? 全球新动态

中新社雅加达4月18日电题:ARJ21飞机为何能结缘印尼?中新社记者李志全中国自主研制的喷气式客机ARJ21,18

2023-04-19

西南首个国际标准化人才培训基地落户成都

(记者刘忠俊)4月18日,由国家标准化管理委员会、成都市人民政府共建的国际标准化人才培训基地(成都)在四川

2023-04-19

视点!新疆生产建设兵团2023年度考试录用公务员面试公告

各位考生:根据《新疆生产建设兵团2023年度考试录用公务员公告》,现将兵团2023年度考录公务员面试有关事项

2023-04-19

最新消息播报:美国副总统府邸外突发枪击案 美国枪击案受害人起诉军火商不计后果向年轻人卖枪无视暴力风险_环球讯息

一、美国副总统府邸外突发枪击案综合美国全国广播公司和《独立报》报道,当地时间4月17日清晨,美国副总统

2023-04-19

全球快讯:新疆昌吉市生活垃圾焚烧发电一期项目复工复产

新疆昌吉市生活垃圾焚烧发电一期项目近日已复工复产。目前主

2023-04-19

记者:莱比锡对奥尔莫未来两套方案,7000万解约金续约或今夏出售 全球速看

据德国天空体育记者FlorianPlettenberg报道,关于奥尔莫的未来,莱比锡有两套方案,一个是附带7000万欧元解

2023-04-19

全球速递![年报]聚焦主责主业、深耕行业“护城河” 北化股份砥砺前行向未来

军工领域的细分龙头北化股份(002246)坚持聚焦主责主业,全面完成供应服务保障,2022年合同履约率达100%,

2023-04-18

四川发现新物种“汶川滑蜥”,我国滑蜥属物种数增至12个 天天百事通

4月18日,记者从中国科学院成都生物研究所获悉,由该单位李家堂研究员课题组依据采自阿坝州汶川县与理县的

2023-04-18

坠亡杂技女演员家属获公司赔偿 基本信息讲解|环球热议

大家好,今日关于【坠亡杂技女演员家属获公司赔偿】的话题登上了各大平台的热搜榜,受到全网的关注度非常高

2023-04-18

大批“学生特种兵”留宿淄博海底捞 留宿需出示车票

中钢网其他新闻资讯频道提供钢材行业其他新闻资讯,中钢网-免保证金、免手续费、零风险、零成本钢材现货交

2023-04-18

思进智能(003025.SZ):富博睿祺拟减持不超1.72%股份

格隆汇4月18日丨思进智能公布,股东富博睿祺计划以集中竞价交易或大宗交易方式减持本公司股份累计不超过1 7

2023-04-18

专访|上海交大-平湖智能光电研究院:卧虎藏龙之地,赋能高端光电芯片封测-环球微头条

编辑:感知芯视界作为国家信息产业的基础技术之一,光电子技术在宽带互联网、高性能计算、智能机器人、先进

2023-04-18

如何修复悬浮地球仪

你需要的东西更换磁铁螺丝刀各种尺寸的滚珠轴承悬浮地球仪使用磁铁来保持漂浮。悬浮球体通过直接悬停在磁铁

2023-04-18

仲夏指农历六月还是五月_仲夏指农历几月?

1、仲夏指的是古代农历的第五个月,来自刘茜《释名》。2、在中国古代历法中,一年分为十二个月:孟春的季春

2023-04-18

国足友谊赛约战巴勒斯坦、缅甸,意在找回自信,36强赛一档无望

而另一方面,国足即便能够顺利击败巴勒斯坦男足,想要通过拿积分来升至亚洲前九从而成为一档球队,从时间上

2023-04-18

全球滚动:警方通报村民疑被当猎物遭枪击死亡

4月14日22时许,谢某超携带私藏气枪与同镇村民汪某、陈某平、吴某飞结伴外出打野兔。四人驾车至案发村口附

2023-04-18

加拿大税务局称仍尽力避免大罢工 尚无延期报税计划|播资讯

中新网多伦多4月17日电(记者余瑞冬)面对潜在的即将到来的税务部门公务员大规模罢工,加拿大税务局4月17日晚

2023-04-18