沈向洋揭秘IDEA研究院新模型：零训练、零微调，轻松开箱即用.txt

发布时间：2023-12-03 11:50:01源自：http://www.sporj.com阅读

在 IDEA 研究院年度大会上，一场关于视觉提示模型的创新展示吸引了全球目光。那就是由我国著名计算机科学家、IDEA 研究院创院理事长沈向洋教授带来的全新研究成果——基于视觉提示（Visual Prompt）模型 T-Rex。这一突破性的技术实现了用视觉来做 Prompt，无论是微小的米粒还是复杂的工业场景，都能轻松应对，让人印象深刻。此外，本次大会还分享了一系列令人瞩目的研究成果，如知识驱动的大模型、专为云计算与边缘计算设计的开发者平台 MoonBit 月兔，以及全新的科研神器 ReadPaper 2.0 等，无不显示出我国人工智能领域的强大实力和广阔前景。

用视觉来做 Prompt，是种什么体验？只需在图里随便框一下，结果秒秒钟圈出同一类别！即便是那种 GPT-4V 都难搞定的数米粒的环节。只需要你手动拉一下框，就能找出所有米粒来。新的目标检测范式，有了！

刚刚结束的 IDEA 年度大会上，IDEA 研究院创院理事长、美国国家工程院外籍院士沈向洋展示了最新研究成果——基于视觉提示（Visual Prompt）模型 T-Rex。整个流程交互，开箱即用，只需几步就可以完成。此前，Meta 开源的 SAM 分割一切模型，直接让 CV 领域迎来了 GPT-3 时刻，但仍是基于文本 prompt 的范式，在应对一些复杂、罕见场景就会比较难办。现在以图换图的方式，就能轻松迎刃而解。

除此之外，整场大会也是干货满满，如Think-on-Graph知识驱动大模型、开发者平台MoonBit月兔、AI科研神器ReadPaper更新2.0、SPU机密计算协处理器、可控人像视频生成平台HiveNet等。沈向洋分享了过去几年花费时间最多的一个项目：低空经济。我坚信，当低空经济发展到相对成熟时，在深圳的天空上，每天将有10万架无人机飞行，每天起飞的无人机将达百万架。

在提出提示方面，T-Rex不仅具备基本的单轮提示功能，还支持三种进阶模式。多轮正例模式类似于多轮对话，旨在获得更精确的结果，避免漏检情况的发生。正例+负例模式适用于视觉提示存在二义性导致误检的场景。此外，T-Rex还采用了跨图模式，即以单张参考图为基础，对其他图进行检测。这一设计避免了受预定义类别限制的影响，可以灵活指定检测目标，从而提高提示效率。尤其是对于那些难以用文字充分描述的工业场景中的复杂组件等。

同时，通过与用户的互动方式，T-Rex还可以实时评估检测结果，并据此进行纠错等操作。T-Rex主要由三个组件构成：图像编码器、提示编码器和框解码器。这一研究成果来自于IDEA研究院计算机视觉与机器人研究中心。

该团队之前开源的目标检测模型DINO是首个在COCO目标检测上取得榜单第一的DETR类模型；在Github上大火（至今已获得11K星）的零样本检测器Grounding DINO以及能检测和分割一切的Grounded SAM。了解更多技术细节请点击文末链接。

02 整场大会亮点纷呈

此外，IDEA大会上还重点分享了几个研究成果。例如，Think-on-Graph知识驱动大模型，简而言之，就是将大模型与知识图谱相结合。大模型擅长意图理解和自主学习，而知识图谱因其结构化的知识存储方式，更擅长逻辑链条推理。Think-on-Graph通过驱动大模型代理在知识图谱上“思考”，逐步搜索推理出最优答案（在知识图谱的关联实体上一步一步搜索推理）。

在每一步推理过程中，大模型都亲自参与，并与知识图谱相互取长补短。MoonBit月兔是一款由Wasm驱动的开发者平台，专为云计算与边缘计算设计。它不仅提供通用程序语言设计，还整合了编译器、构建系统、集成开发环境（IDE）和部署工具等板块，以提高开发体验和效率。

在System, SILAS中，提出了时空进程（Temporal Spatial Process）的新概念。

转载请注明: http://www.sporj.com/shenghuobaike/3878.html

上一篇：互联网运营岗位众多，如何挑选适合自己的职业发展方向？"

下一篇：你知道'哈哈'和'哈哈哈'的区别吗？