发布时间:2023-12-03 11:50:01源自:http://www.sporj.com阅读
在 IDEA 研究院年度大会上,一场关于视觉提示模型的创新展示吸引了全球目光。那就是由我国著名计算机科学家、IDEA 研究院创院理事长沈向洋教授带来的全新研究成果——基于视觉提示(Visual Prompt)模型 T-Rex。这一突破性的技术实现了用视觉来做 Prompt,无论是微小的米粒还是复杂的工业场景,都能轻松应对,让人印象深刻。此外,本次大会还分享了一系列令人瞩目的研究成果,如知识驱动的大模型、专为云计算与边缘计算设计的开发者平台 MoonBit 月兔,以及全新的科研神器 ReadPaper 2.0 等,无不显示出我国人工智能领域的强大实力和广阔前景。
用视觉来做 Prompt,是种什么体验?只需在图里随便框一下,结果秒秒钟圈出同一类别!即便是那种 GPT-4V 都难搞定的数米粒的环节。只需要你手动拉一下框,就能找出所有米粒来。新的目标检测范式,有了!
刚刚结束的 IDEA 年度大会上,IDEA 研究院创院理事长、美国国家工程院外籍院士沈向洋展示了最新研究成果——基于视觉提示(Visual Prompt)模型 T-Rex。整个流程交互,开箱即用,只需几步就可以完成。此前,Meta 开源的 SAM 分割一切模型,直接让 CV 领域迎来了 GPT-3 时刻,但仍是基于文本 prompt 的范式,在应对一些复杂、罕见场景就会比较难办。现在以图换图的方式,就能轻松迎刃而解。
除此之外,整场大会也是干货满满,如Think-on-Graph知识驱动大模型、开发者平台MoonBit月兔、AI科研神器ReadPaper更新2.0、SPU机密计算协处理器、可控人像视频生成平台HiveNet等。沈向洋分享了过去几年花费时间最多的一个项目:低空经济。我坚信,当低空经济发展到相对成熟时,在深圳的天空上,每天将有10万架无人机飞行,每天起飞的无人机将达百万架。
在提出提示方面,T-Rex不仅具备基本的单轮提示功能,还支持三种进阶模式。多轮正例模式类似于多轮对话,旨在获得更精确的结果,避免漏检情况的发生。正例+负例模式适用于视觉提示存在二义性导致误检的场景。此外,T-Rex还采用了跨图模式,即以单张参考图为基础,对其他图进行检测。这一设计避免了受预定义类别限制的影响,可以灵活指定检测目标,从而提高提示效率。尤其是对于那些难以用文字充分描述的工业场景中的复杂组件等。
同时,通过与用户的互动方式,T-Rex还可以实时评估检测结果,并据此进行纠错等操作。T-Rex主要由三个组件构成:图像编码器、提示编码器和框解码器。这一研究成果来自于IDEA研究院计算机视觉与机器人研究中心。
该团队之前开源的目标检测模型DINO是首个在COCO目标检测上取得榜单第一的DETR类模型;在Github上大火(至今已获得11K星)的零样本检测器Grounding DINO以及能检测和分割一切的Grounded SAM。了解更多技术细节请点击文末链接。
02 整场大会亮点纷呈
此外,IDEA大会上还重点分享了几个研究成果。例如,Think-on-Graph知识驱动大模型,简而言之,就是将大模型与知识图谱相结合。大模型擅长意图理解和自主学习,而知识图谱因其结构化的知识存储方式,更擅长逻辑链条推理。Think-on-Graph通过驱动大模型代理在知识图谱上“思考”,逐步搜索推理出最优答案(在知识图谱的关联实体上一步一步搜索推理)。
在每一步推理过程中,大模型都亲自参与,并与知识图谱相互取长补短。MoonBit月兔是一款由Wasm驱动的开发者平台,专为云计算与边缘计算设计。它不仅提供通用程序语言设计,还整合了编译器、构建系统、集成开发环境(IDE)和部署工具等板块,以提高开发体验和效率。
在System, SILAS中,提出了时空进程(Temporal Spatial Process)的新概念。
碎片百科网 Copyright©2018-2019 All Rights Reserved
免责声明:本站所有图片、文字除注明原创外均来源于互联网,版权归原作者所有,若侵犯到您的权益,请立即联系我们删除,谢谢合作! 琼ICP备2023011107号-1