2024.3人工智能月报:AI赋能新质生产力,Kimi 国产大模型长文本

核心观点:

  • 国产应用 Kimi 火爆出圈,AI 应用端加速落地。3 月18日,Moonshot(月之暗面)宣布在大模型长上下文窗口技术上取得新的突破,其自研的 Kimi 智能助手已支持200万字超长无损上下文。我们认为, Kimi 智能助手迭代速度超预期,推动应用端加速落地,未来国内以 Kimi 为代表具备长文本能力的大模型将持续推出,如百度文心一言、阿里通义千问等相继开放长文本能力、阶跃星辰推出国内首个千亿参数多模态金融大模型,2024年将是 AI 应用元年,大模型正式进入“长文本时代”
  • 人工智能赋能新质生产力,加速布局数字经济新基建。3月5日,十四届全国人大二次会议在人民大会堂举行开幕会,国务院总理李强代表国务院作政府工作报告。新质生产力、人工智能+首次被写入政府工作报告。3月25日国家数据局局长刘烈宏在“ 数字化赋能产业转型专题研讨会”中表示进一步加快推进数字基础设施建设。我们认为,数字经济将成为经济增长的新动力,成为培育新质生产力的核心,而人工智能是将提高生产效率,拓宽应用场景与商业模式,持续赋能新质生产力,产业链相关领域迎来投资机会。
  • 英伟达 GTC 大会推出 B200, 液冷散热将成为主流。3 月19日英伟达2024GTC 大会上,英伟达 CEO 黄仁勋发布了更高性能的基于 Blackwell 架构的 B200 以及超级芯片 GB200。B200 GPU 基于台积电 4nm 制程工艺,晶体管数量达到了2080亿个,算力达到 20PFlops(FP4),性能较 H100 提升 ,借助NV link 5.0进行数据传输,理论速度可以达到 10TB/s。此外,黄仁勋还公布 GB2 00 提供支持的服务器系统,液冷的散热方式成为系统标配。
  • 美国芯片禁令再升级。2024年3月29日,美国 BIS 在联邦公报上发布《实施额外出口管制规则》,规则内容关于某些高级计算项目,超级计算机和半导体最终用途,更新和更正以及半导体制造产品的出口管制,更正和澄清,该规则生效日期为2024年4月4日,长期看,利好国产算力芯片厂商。

1.  人工智能产业政策动态

1.1 数据要素、数据交易所最新新闻及政策

日期

具体内容

 

 

 

3.29

国家数据局沈竹林:加快建设数字中国,全面激发数据要素潜能

近日国家数据局副局长沈竹林在 2024 年国家信息中心学术年会上指出,加快建设数字中国,需要不断强化重大理论和实践问题的研究,全面激发数据要素潜能,释放数据要素价值。沈竹林表示,一是要从国家发展大局的高度深入研究数据事业发展的战略性、基础性问题,加快构建数据领域理论框架体系。二是深入开展“十五五”规划战略研究,科学提出发展目标,围绕重点领域研究“十五五”时期重点任务和重大工程,为数字中国长远发展绘就蓝图。三是围绕数据“供得出”“流得动”、“用得好”、“保安全”等方面创新实践所需的基础制度、核心技术、基础设施、安全保障等方面深入研究。

 

 

3.23

西湖数据智能产业园揭牌 发展数据要素市场生态

3 月 22-23 日,云谷“论数”2024 数据要素×产业推进大会盛大召开,大会由数据智能上市企业每日互动等发起。西湖数据智能产业园在会上正式揭牌成立,助力建设杭州数据智能产业生态。西湖数据智能产业园位于杭州市西湖区云谷板块的核心区域,该产业园的建设得到了地方政府的大力支持,园区内集聚了数据智能领域领跑企业每日互动等,旨在打造一个集研发、创新、孵化、应用于一体的数据要素市场发展的新高地。西湖数据智能产业园的揭牌成立,不仅为杭州数字经济的创新发展提供了有力支撑,也为整个数据智能产业的生态建设提供了有利条件。

 

   

 

 

3.20

多方协力搭建数据要素流通Web3.0 可信技术联合实验室

3 月 20 日,中国移动研究院举办数据要素流通 Web3.0 可信技术智库研讨会。会上,来自中国移动、中国电信、中国联通三大运营商,以及中国财富研究院、中国信息通信研究院等领导专家,共同就数据要素流通的 Web3.0 可信技术、行业应用、产业现状、政策环境等进行了学术和智库交流,并共同发起成立“数据要素流通 Web3.0 可信技术联合实验室”。

 

 

 

3.15

中国互联网金融协会召开“金融数据要素合规应用与安全管理”工作座谈会

3 月 15 日,中国互联网金融协会在京召开“金融数据要素合规应用与安全管理”工作座谈会。协会党委委员、副秘书长杨农出席会议并致辞,来自商业银行、保险公司、咨询服务机构、律师事务所、金融科技企业等相关负责人和专家参加会议。议发布了《金融数据 典型场景与合规应用》(以下简称《合规应用》)工作报告,响应会员机构提升数字金融服务能力,促进消费互联网与产业互联网高质量发展的服务需求,为会员提供有价值、可实操、能落地的数据合规与安全应用指南。

 

3.12

人民数据推出中国首个数据识别体系,促进数据要素价值释放和交易流通

人民数据探索打造了中国首个数据元素识别编码体系,在与国际国内通用编码机构合作的基础上,人民数据取得数据领域第一个编码号段代码MA15602.data,并打造上线自主研发的数据元素识别体系。

1.2 算法端:国内外巨头大模型动态

时间

模型

主要内容

 

 

2024.3.29

 

 

天工大模型

2024 年度ADMIC 汽车数字化&营销创新峰会及AOIS 中国汽车品牌出海创新峰会暨金璨奖颁奖盛典在沪举行,昆仑万维携手云捷亮数共同打造的全球首个公路旅行智能 AI 机器人“智行 318”荣获年度创新商业模式奖。“智行 318”是基于昆仑万维天工大模型打造的全球首个公路旅行智能AI 机器人,能够为车主、旅行者提供实时互动的 AI 助手功能,同时也为公路自驾提供全新的智能化解决方案。

 

 

2024.3.23

 

 

Monkey

2024 年 3 月 18 日,通用人工智能创业公司——月之暗面(Moonshot AI)宣布在大模型长上下文窗口技术上取得新的突破,Kimi 智能助手已支持200万字超长无损上下文,并于即日起开启产品“内测”。对大模型超长无损上下文能力有需求的用户,可到 Kimi 智能助手网页版 kimi.ai 首页申请抢先体验。

 

 

 

2024.3.18

 

 

 

Moonshot

Monkey 多模态大模型已被人工智能领域国际顶级会议 CVPR 2024接收,且该大模型曾在大模型开源开放评测体系——“司南”多模态大模型排行榜中名列开源模型榜首。Monkey 在文档领域的“升级版”——文字多模态大模型 TextMonkey 也于近日发布。Monkey 突破了通用文档理解能力边界。它在场景文字识别、办公文档摘要生成、数学问题问答、文档版式分析、表格理解、图表问答、电子文档关键信息抽取等12项文档权威数据集,以及国际上规模最大的文档图像智能数据集 OCRBench 上取得显著突破,通用文档理解性能大幅超越现有模型。

 

2024.3.15

 

星海大模型

3 月 15 日,“海信视像 AI 美好生活”全场景显示新品发布会上,海信正式发布了自研星海大模型,这也是目前电视行业最强中文大模型。在 AI 的加持下,海信推出全新 ULED X 全场景 AI 计算画质平台和多款旗舰新品。

 

2024.3.15

 

Follow-Your-Click

腾讯和清华大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Click“,基于输入模型的图片,只需点击对应区域,加上少量提示词,就可以让图片中原本静态的区域动起来,一键转换成视频。

时间

企业名称

主要内容

 

 

 

2024.3.27

 

 

 

Databricks

最强开源大模型DBRX

3 月 27 日,美国数据和人工智能公司Databricks 宣布开源 Mosaic Research 团队主导开发的通用混合专家(MoE)大语言模型DBRX。DBRX 的研发历经数月,耗资约 1000 万美元,共包含 1320 亿参数,16 个专家网络,每次推理时会启用其中的 4 个专家网络和 360 亿参数。DBRX在语言理解、编程、数学和逻辑等方面表现卓越,不仅在性能上超过了开源大模型Llama 2、Mixtral 以及马斯克新开源的Grok-1,而且在多项评分上已经逼近GPT-4。

 

 

2024.3.30

 

 

 

OpenAI

OpenAI 展示音频模型模型Voice Engine

OpenAI 在官网首次展示了全新自定义音频模型 “Voice Engine”。 用户只需要提供 15 秒左右的参考声音,通过 Voice Engine 就能生成几乎和原音一模一样的全新音频,在清晰度、语音连贯、音色、自然度等方面比市面上多数产品都强很多。 除了能合成音频之外,OpenAI 还展示了 Voice Engine 很多其他际商业用途,例如,一位失去声音表达能力的女孩,在 Voice

Engine 帮助下能像以前一样正常发音说话

 

 

2024.3.28

 

 

谷歌

Gemini Nano 模型即将登陆 Pixel 8

周四(3 月 28 日),谷歌宣布,Pixel 8 将在下一个 Pixel 功能更新中支持 Gemini Nano,不过这将只是一个开发者预览版。

目前还没有更多的细节发布,但谷歌证实,该模型将为两个扩展功能提供动力——在 Record

er(录音机)应用中的摘要总结功能、以及在Gboard 应用中的智能回复功能。

 

2024.3.25

 

Meta

Meta 开发视觉模型 SceneScript

据 Meta 公司官方新闻稿,该公司开发了一款名为“SceneScript”的视觉模型,该模型号称

能够使用可编程语言来快速“建立”场景,实时推断房间几何形状,并将相关数据转换为建筑学层面的近似值。Meta 声称,相关方法能够高效且轻量地建立室内 3D 模型,号称“只需要数 KB 的内存即可生成清晰且完整的几何形状”,并且相关形状数据具有“可解释性”,用户可以轻松阅读和编辑这些数据表示。开发人员借鉴了大语言模型“预测单词”的方法来开发 SceneScript,以 Llama 模型为例,该模型可以根据前面的单词来预测句子的下一个单词,例如输入句子“The cat sat on the…”,模型会预测下一个单词可能是“mat”或“floor”。而 SceneScript 运用了相同的概念,即通过前序输入内容推出后文,并使用这些建筑学层面

的描述重建出复杂的室内 3D 环境

1.3 算力端:AI 服务器、AI 芯片最新动态

日期

具体内容

 

3.29

美国升级AI 芯片和相关工具出口管制措施

2024 年 3 月 29 日,美国商务部工业和安全局(BIS)在联邦公报上发布《实施额外出口管制规则》,规则内容关于某些高级计算项目,超级计算机和半导体最终用途,更新和更正;以及半导体制造产品的出口管制,更正和澄清。

 

3.28

英伟达 H200 的开始全球供货

英伟达公司的全新人工智能领域图像处理芯片(GPU)H200 已经开始全球供货。据报道,H200 是一款面向AI 领域的半导体,性能超过了目前主打的 H100。较前任霸主 H100,H200 的性能直接提升了 60%到 90%,且在成本和能耗效率上取得了革命性改进,仅为 H100 的四分之一。此外,H200 相比于 H100,生成式 AI导出答案的处理速度最高提高了 45%。不仅如此,这两款芯片还是互相兼容。

 

3.25

中国联通总部首次启动人工智能服务器集采

中国联通日前发布预审公告称,2024 年中国联通人工智能服务器集中采购项目已具备招标条件,现进行资格预审,特邀请有意向的潜在投标人提出资格预审申请。从中国联通发布的预审公告显示,本次中国联通人工智能服务器集采,共将采购 2503 台人工智能服务器,688 台关键组网设备RoCE 交换机。项目不划分标包。本次是中国联通总部第一次就人工智能方面采购服务器。

 

3.19

英伟达GTC 推出“全球最强”AI 芯片

英伟达推出新一代 AI 图形处理器芯片(GPU)架构 Blackwell,并重磅发布采用该架构的 GPU——B200 和 GB200 产品系列。Blackwell 拥有六项革命性的技术,可以支持多达 10 万亿参数的模型进行 AI 训练和实时 LLM 推理。

 

3.7

鸿海将获得苹果 2 万台AI 服务器订单

摩根士丹利证券最新报告指出,今年鸿海将拿下苹果 2 万台 AI 服务器订单。报告还指出,鸿海集团旗下工业富联自 2021 年就开始与苹果合作发展服务器,并在 2023 年中旬开始小量批次出货苹果。此外,有消息称,鸿海今年也有机会获得英伟达最新的 B200 订单,而相关客户订单一直以来也主要由工业富联承接。

 

 

3.5

香港建人工智能超算中心

近日公布的财政预算案聚焦 AI 等领域,提出多项提升算力、推动科研的举措,人工智能超算中心首阶段设施最快年内投入服务。专家形容,这是“雪中送炭”的举措,把基础研究工作往前推进了一大步。香港新一份财政预算案提出,香港数码港正全速设立人工智能超算中心,协助研究机构和业界应付算力需求,预计中心最快可于 2026 年初提供每秒浮点运算 3000 千万亿次的算力,相当于 1 小时可完成近 100 亿张图像处理。

2. 前沿行业动态

2.1 前沿技术动态

 1、理想汽车 Mind GPT 大模型通过国家备案,训练数据规模达 3 万亿 Token

理想汽车今日宣布, 全自研多模态认知大模型 Mind GPT 正式通过国家《生成式人工智能服务管理暂行办法》备案,成为首个通过该备案的汽车厂商自研大模型。

据介绍,Mind GPT 是在汽车智能座舱落地的全自研多模态认知大模型,训练数据规模达 3 万亿 Token。理想汽车称: Mind GPT 是行业唯一一个不需要任何的指令词就可以使用的大模型, 也是行业唯一一个真正围绕车载场景打造的大模型。

它还拥有听感和执行能力全面进化的理想同学,支持方言自由说、指令自由说、简洁模式以及全时全车免唤醒的能力。

11

2、英伟达放大招!“AI 核武库”数弹齐发,全新人形机器人基础模型、计算芯片上线

被业界誉为“ AI 风向标”的英伟达 GTC( GPU Technology Conference) 2024 AI 开发者盛会在美国加州圣何塞会议中心召开,为 AI 的又一次飞跃奠定了基础。

作为全球级顶级 AI 盛会, 这场大会可以说是万众瞩目。大会上, 英伟达公司创始人兼首席执行官黄仁勋发表了《见证 AI 的变革时刻》的主题演讲,发布了加速计算、生成式 AI 以及机器人领域的最新突破性成果,个个都堪称王炸级别。

其中包括 AI 芯片 Blackwell GPU( 世界最强大的芯片)、全新网络交换机 X800 系列、AI 超级计算机、生成式 AI 微服务……

另外,英伟达十分看好具身智能,“开发通用人形机器人基础模型是当今 AI 领域中最令人兴奋的课题之一。”

黄仁勋在发布会公布了人形机器人项目 GR00T,这是一个人形机器人的模型平台,旨在进一步推动英伟达在机器人方面的研发。

GR00T 脱胎于英伟达的 Isaac 机器人平台工具,由 GR00T 驱动的机器人能理解自然语言,并通过观察人类行为来模仿快速学习协调、灵活性和其它技能,以适应现实世界并与之互动。

英伟达还开发了一种新型“机器人大脑”计算芯片 Jetson Thor,能够执行复杂的任务。Jetson Thor具有针对性能、功耗和尺寸优化的模块化架构,内置了下一代 Blackwell GPU, 带宽达到 100GB/s,

AI 计算性能达到 800TFLOPs,以运行 GR00T 等多模态生成式 AI 模型。英伟达将基于 Jetson Thor来开发生产机器人。

大会现场,迪士尼的一对小型机器人现身与黄仁勋互动,机器人用的就是英伟达为机器人设计的首款 AI 芯片 Jetson。

英伟达称,目前正在为 1X Technologies、Agility Robotics、Apptronik、波士顿动力、Figure AI、傅利叶智能、Sanctuary AI、Unitree Robotics 和宇树科技和小鹏鹏行等人形机器人公司构建 AI 平台。

此外,为了给 Project GR00T 项目提供软件支持,基于英伟达 Omniverse 构建的 Isaac Lab 也进行了升级,允许开发者利用该平台模拟机器人学习技能、与物理世界模拟互动,支持数千个机器人同步训练与模拟。新功能将在下个季度推出。

与此同时,英伟达还发布了一系列机器人预训练模型、库和参考硬件:用于辅助提升机械臂的灵敏度与精确度的加速库平台 Isaac Manipulator , 以及用于提升机器人深度感知能力的 Isaac Perceptor 软件库。

12

3、苹果推出 300 亿参数 MM1 多模态 AI 大模型,可识别图像推理自然语言

IT 之家 3 月 16 日消息,苹果公司旗下研究团队近日在 ArXiv 中公布了一篇名为《MM1:Methods, Analysis&Insights from Multimodal LLM Pre-training》的论文,其中介绍了一款“MM1”多模态大模型,该模型提供 30 亿、70 亿、300 亿三种参数规模,拥有图像识别和自然语言推理能力。

IT 之家注意到, 苹果研究团队相关论文主要是利用 MM1 模型做实验,通过控制各种变量,找出影响模型效果的关键因素。

研究表明,图像分辨率和图像标记数量对模型性能影响较大,视觉语言连接器对模型的影响较小,不同类型的预训练数据对模型的性能有不同的影响。

据介绍,研究团队首先在模型架构决策和预训练数据上进行小规模消融实验。之后利用混合专家( Mixture of Experts) 架构及一种名为 Top-2 Gating 的方法构建了 MM1 模型,号称不仅在预训练指标中实现了最好的性能表现,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。

研究人员对“ MM1”模型进行了测试, 号称 MM1-3B-Chat 和 MM1-7B-Chat 优于市面上绝大多数相同规模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench、 MMMU 和 MathVista 中表现尤为突出, 但是整体表现不如谷歌的 Gemini 和 OpenAI 的 GPT-4V。

4、世界最大开源 AI 社区 Hugging Face 涉足开源机器人领域,前特斯拉科学家领衔

据外媒 VentureBeat 报道, AI 创企 Hugging Face 设立开源机器人项目, 前特斯拉科学家 Remi Cadene 领衔。

Remi Cadene 的 X 平台动态显示,这位前特斯拉人形机器人 Optimus 团队成员加入 Hugging Face并启动了一个开源机器人项目,招募愿在巴黎建造“真正的机器人”的工程师。

参考 IT 之家以往报道, Hugging Face 目前主营业务均为软件形态, 包括开源 AI 模型库和 AI助手 Hugging Chat Assistants。此次组建开源机器人团队将是其首次进军 AI 硬件领域。

根据 Remi Cadene 分享的链接, Hugging Face 正提供“具身机器人工程师”岗位。

Hugging Face 表示, 其“相信机器学习不必局限于计算机和服务器,这就是为什么我们正在扩大我们的团队,为专注于机器学习与 AI 的机器人工程师提供新的机会”。

该职位将负责设计、构建和维护集成了深度学习和具身 AI 技术的开源机器人系统。而这一机器人将基于现有的电子元件和控制器以及 3D 打印部件打造, 以实现低成本目标。

5、中科院自研 AI 大模型“紫东太初 3.0”今年上半年发布,优化智能驾驶训练

武汉人工智能研究院联合中国科学院自动化研究所自主研发的“ 紫东太初” 大模型已迭代到

2.0 版本, 根据官方最新消息,“紫东太初 3.0”将于今年上半年发布。

据湖北日报报道, 武汉人工智能研究院院长王金桥介绍:“上半年,我们将发布‘ 紫东太初’ 3.0,进一步提升大模型对千行百业的赋能能力。借力相关研究,院方与东风汽车、光庭信息在智能驾驶领域的合作已全面展开。”

据 IT 之家此前报道, 紫东太初第一代 AI 大模型于 2021 年发布,由中国科学院自动化研究所和华为联合开发, 号称是“全球首个千亿参数多模态大模型”。

区别于当前以文本为主的大部分语言大模型,“紫东太初”大模型在研发之初即以多模态技术为核心,利用图-音-文等更多类型数据进行跨模态的统一表征和学习,实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”。

紫东太初 2.0 于 2023 年 6 月发布,基于华为全栈国产化软硬件平台昇腾 AI 与昇思 MindSpore,相比第一代着力提升了决策与判断能力,在文本、图片、音频的基础上,“紫东太初”2.0 可融入 3D、视频、传感信号等更多模态数据,并优化语音、视频和文本的融合认知以及常识计算等功能。

报道称,升级到 3.0 版本,大模型将在各项性能优化的基础上,具备自主选择、使用工具的能力,满足更深层次的逻辑交互需要。

针对智能驾驶,“ 紫东太初” 将大幅缩短、优化其训练过程。通过大语言模型和多模态能力,大模型可以替代海量的人工,完成汽车、信号灯、路标等数据的自动标注,大幅提升智能汽车感知世界的效率。

同时,“ 紫东太初”接入汽车后,能够更深层次地学习、理解驾驶目标和意图,快速将环境信息翻译成设备能读懂的语言,并预测未来几秒内的情况,提前向汽车下达合适指令。

13

6、可让照片人物“开口说话”,阿里巴巴研究团队推出 AI 框架“EMO”

IT 之家 3 月 1 日消息, 阿里巴巴研究团队近日发布了一款名为“EMO( Emote Portrait Alive)”的 AI 框架, 该框架号称可以用于“对口型”,只需要输入人物照片及音频,模型就能够让照片中的人物开口说出相关音频,支持中英韩等语言。

据悉,EMO 基于英伟达的 Audio2Video 扩散模型打造,号称使用了超过 250 小时的专业视频进行训练,从而得到了相关 AI 框架。

IT 之家注意到, 研究团队分享了几段由 EMO 框架生成的 DEMO 演示片段,并在 ArXiv 上发布了模型的工作原理,感兴趣的小伙伴也可以访问 GitHub 查看项目。

据介绍, 该框架工作过程分为两个主要阶段, 研究人员首先利用参考网络( ReferenceNet)从参考图像和动作帧中提取特征,之后利用预训练的音频编码器处理声音并嵌入,再结合多帧噪声和面部区域掩码来生成视频,该框架还融合了两种注意机制和时间模块,以确保视频中角色身份的一致性和动作的自然流畅。

研究人员援引一系列实验结果,声称 EMO 不仅能够产生令人信服的说话视频, 还能生成各种风格的歌唱视频, 号称“显著优于目前的 DreamTalk、Wav2Lip、SadTalker 等竞品”。

14

7、Adobe 推出 AI 音乐生成工具,可根据文本生成音乐并进行精细编辑

近日,在布鲁克林举行的 Hot Pod 峰会上,Adobe 发布了名为“Project Music GenAI Control”的全新 AI 音乐创作工具原型。该工具利用生成式人工智能技术, 帮助用户无需专业音频制作经验即可创作和编辑音乐。

用户只需输入文本描述,例如“欢快的舞蹈”或“ 忧伤的爵士乐”,Project Music GenAI Control就能生成对应风格的音乐。更重要的是,用户还可以使用集成的编辑控件自定义生成的音乐,调整重复模式、速度、强度和结构。此外,该工具可以重新混音音乐片段,并生成循环音频,非常适合内容创作者制作背景音乐和配乐。

Adobe 表示, Project Music GenAI Control 还能够“基于参考旋律”调整生成的音频, 并且可以延长音频片段的长度,以满足固定动画或播客片段等所需时长。目前,用于编辑生成音频的实际用户界面尚未公布。

IT 之家注意到, 市面上虽然已经存在类似的音乐生成工具, 例如谷歌的 MusicLM 和 meta 开源的 AudioCraft, 但这些工具只能通过文本提示生成音频, 几乎无法编辑生成的音乐。这意味着用户要么不断生成音频直到满意,要么借助专业的音频编辑软件进行手动修改。

“ 这些新工具最激动人心的功能之一不仅仅是生成音频, ” Adobe 研究院高级研究科学家 Nicholas Bryan 在新闻稿中表示,“它们就像 Photoshop 一样, 赋予创作者深度控制权, 让他们可以塑造、调整和编辑音频,就像像素级控制图像一样。”

Project Music GenAI Control 由 Adobe 与加州大学和卡内基梅隆大学计算机科学学院合作开发, 目前该项目仍处于“早期实验”阶段,未来可能会被整合到 Adobe 旗下的现有编辑工具 Audition 和 Premiere Pro 中。目前该工具尚未向公众开放, 也未公布发布时间。

15

8、谷歌发布基础世界模型 Genie,能一图创建互动的虚拟环境

谷歌旗下“ 深度思维”公司重磅发布了一个根据互联网视频训练的基础世界模型—— Genie(精灵)。其可从合成图像、照片、草图生成多种动作可控的环境。

过去几年,生成式人工智能( AI)模型能通过语言、图像甚至视频生成内容。谷歌此次引入生成式人工智能新范式,即生成式交互式环境,通过单个图像提示即可生成交互式、动作可控的环境。

Genie 是一个 110 亿参数的基础世界模型, 在超过 20 万小时的二维( 2D) 游戏视频上进行训练,无需人工监督。这意味着 Genie 可以从视频中自行识别不同动作的特征和模式。其能学习各种角色的动作、控制和行动。

Genie 的独特之处还在于它能够专门从互联网视频中学习细颗粒度的控制。Genie 不仅能观察哪些部分是可控制的,而且能根据生成的环境来推测出多种潜在的动作。

该模型接受单个图像(无论是 AI 合成图像、照片还是草图), 并将其转换为可玩的游戏, 响应用户控件。从图像到基本的交互环境一步到位。

用户只需提供一张纸上的草图、一幅完美的数字艺术作品,甚至是 AI 生成对 2D 世界的描述, Genie 就会完成剩下的工作, 帮用户生成 2D 游戏。

谷歌官网称, Genie 专注 2D 平台游戏和机器人技术的视频,但方法通用, 应适用于任何类型领域并可扩展至更大的互联网数据集。只需一张图像就能创建全新的交互环境,这为生成和进入虚拟世界的各种新路径开启了大门。

2.2 前沿政策动态

近一个月,国家和地方相继发布人工智能支持政策,推动人工智能产业链发展。

相关政策法规

时间

发布单位

文件

内容

 

 

2024.3.29

 

 

北京经开区管委会

 

《北京经济技术开发区关于加快打造 AI 原生产业创新高地的若干政策》

到 2026 年,人工智能核心技术取得重大突破,算力算法数据有效支撑,场景赋能的广度和深度全面拓展,数据要素市场化建设成效显著,全面构建自主可控软硬件人工智能产业生态。培育性能达到国际先进水平的通用大模型,打造人工智能标杆应用场景 10 个,集聚人工智能产业链企业100 家,实现园区营业收入1000 亿元,建成人工智能算力10000 PFlops。

 

2024.3.5

 

国务院

 

政府工作报告

制定支持数字经济高质量发展政策,积极推进数字产业化、产业数字化,促进数字技术和实体经济深度融合。深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群。

 

 

 

3. 前沿企业动态

3.1 前沿产品动态

 1、科技感满满!重大教授带来五臂手术机器人 预计明年底上市

3月 28 日,2024 年中国医学装备大会暨医学装备展览会在重庆悦来国际博览中心举办。重庆大学机械与运载工程学院教授柏龙,带着其作为首席科学家参与研发的免 CO₂气腹五臂腔镜手术机器人亮相展会现场,充满科技感的造型,吸引了不少现场观众的目光。

“ 这款腔镜手术机器人我们研发了近十年, 做到了首创的串并混联 5 臂构型, 目前已经申请 207 个国家专利和 30 个国际专利。”柏龙介绍,该产品具有寿命长、维护费用低、可以双人操作等特点,而成本价格只是目前市面主流产品售价的十分之一左右。

据介绍,外科手术经历了开放手术、微创手术的发展,目前正逐步进入机器人辅助手术的阶段。

然而,柏龙在学术交流中发现,目前市面上的腔镜手术机器人被国外某品牌的产品垄断了市场,而该产品价格高昂,单台售价超过两千万,耗材费用也很昂贵,为患者增加大量就医成本不说,使用频次不高的医院更是负担不起。

“我当时就在想,我们能不能自主研发做出一款性能一样,甚至超越其性能的产品出来,把价格‘打下来’,让更多老百姓能够在就医时享用到先进的科技服务。”柏龙说,于是在 2016 年, 他与黄善灯联合组建研发团队,展开了漫长的“攻关”过程。

但成熟品牌历经多年发展经验,已经有了成熟的技术,想要追赶都已经很难,怎样才能实现超越?受到国内大力发展新能源汽车的启发,柏龙想到了“换道超车”。

在不断地调研中柏龙发现,该品牌机器人采用的是模仿人体手臂的设计,在手术过程中机械手臂摆动幅度很大, 因此受限于运动空间,往往只能设计为 3~4 臂的数量。

“我观察了很多手术过程,医生在手术时其实主要是手臂实现手术的姿态保持,而具体的动作则更多依靠手腕的局部运动来实现。”柏龙介绍,通过近三年的方案论证,团队设计出了串并混联构型腔镜机器人手臂,模仿医生手臂摆正位置,再模拟医生手腕的局部灵巧运动。这样一台手术机器人就可以模拟不同科室的医生完成数十种手术。

在价格方面,这款腔镜手术机器人采用串并混联构型, 可实现模块化制造,随着工艺门槛低, 其使用寿命和可靠性显著提升,机器人本体和耗材成本、以及维护成本都大幅降低。

手术机器人属于三类医疗器械,技术门槛很高,想做一款手术机器人产品出来相当不容易,整台机器人光电机就有 120 多个,团队从构型、功能到实时力反馈人机交互实现,先后迭代了五十多个版本,才最终定型。

“我在团队中担任首席科学家,负责提出原理构想及理论与算法突破,首席工程师黄善灯则负责把我们的理论研究变为工程实现。”柏龙回忆,一般他在晚上 8、9 点钟的时候都不敢给黄善灯打电话,“他会在这个时间睡两个小时,然后再起来工作到凌晨两三点钟。”

就这样, 在团队多年一起努力下, 终于在 2020 年制作出了第一台样机, 2023 年完成定型。柏龙介绍, 该款腔镜手术机器人已经历近百次动物实验。目前该产品已进入临床试验阶段, 计划于 2025 年年底获证上市。

2、戴盟机器人发布 Sparky 1:人形机器人两大阵营已现,要能跑能跳还是要心灵手巧?

日前,戴盟( 深圳)机器人科技有限公司( 以下简称戴盟机器人)也发布了其新品“ Sparky 1”。这是该团队继仿人搬运机器人后推出的又一款突破性“巧手”产品,据悉,该机器人采用新一代视触觉传感+灵巧操作技术, 旨在帮助人类完成更多任务挑战。“心灵手巧”阵营再添一员。

在常见的人形机器人中,往往重点展示的是它们的运动能力。而在「戴盟机器人」发布的新品中,则更多展示了“ 巧手”的可能性。比如,机器人一口气完成“ 插线束接口”“ 焊接电路板”“ 滴试剂”“ 熨衣服”“ 倒酒服务”“ 物体分拣”“ 整理书架” 等人类才能实现的“ 精细化”工作,解锁了家庭、工业、商业、研发等多个场景作业能力。

从戴盟的新品发布中可以看到,机器人活动着五指灵巧手,右手拿起线束,左手挑出蓝色网线, 瞄准对应接口,稳稳插进。看似一个很简单的动作,但实际上,网线的“ 水晶头”非上下对称,接口较普通 USB 更为复杂。人类“插网线”尚且经常出现“对不准”的小 bug,而画面中的机器人动作流畅,实属惊艳。

随后,机器人瞬移到了“ 电子厂”。面对一块比半个巴掌还小的电路板,这位叫做 Sparky 1的人形机器人, 左手捏着头发丝般粗细的金属丝, 右手拿着小巧的焊接工具, 动作之从容堪比“电子厂”小哥。

16

紧接着,机器人又化身为滴试管的“ 实验助手”;熨衣服的“ 家庭助手”,倒酒的“ 餐厅服务员”。这些动作无一例外,均要求“ 眼尖手稳心不慌”。即便是“ 小脑”发育完全的人类,也要专心致志才能完成。

更为亮眼的是,这位“ 百变马丁”还能在图书馆整理书架!兼具“ 大长腿+灵巧手+5.1 的视力”, Sparky 1 不仅可以屈膝和弯腰, 还可以通过身体的升降, 将手中的书本稳稳放入 2.2 米高的书架。

戴盟机器人正在不断发展其“ 视觉-触觉-语言-动作端到端模型”的技术。这种多模态模型集成了视觉、触觉和语言处理能力,可以根据语言指令理解任务要求,通过视觉和触觉信号感知周围环境,并据此实时产生适当的动作信号来执行任务。

正是得益于多模态集成技术,戴盟 Sparky 1 心灵手巧型人形机器人化身巧手“裁缝”,在精细操作任务中预期成功率提高至少 20%;鲁棒性显著提高, 任凭环境复杂多变,依然能够“眼尖手巧心不慌”。

3、丰田推出会拥抱的软机器人,能用整个身体搬运物品

IT 之家 3 月 18 日消息, 在机器人领域, 我们经常看到机器人使用机械手抓取和操作物体。然而,这种方法并不能完全体现人类与世界的互动方式, 尤其是当面对笨重物品时。

由丰田公司打造的普尼奥软机器人( Punyo soft robot) 则另辟蹊径, 不同于传统机器人, 普尼奥从我们人类的行为中汲取灵感,不仅使用双手,还会调动胸部、臀部和手臂来搬运物体,就像我们人类一样。

IT 之家注意到,普尼奥拥有可爱的面孔,让人联想到迪士尼动画《超能陆战队》中的大白。不仅如此,普尼奥看起来像穿着一件舒适的毛衣,这并非单纯为了好看,而是为了实现一个重要功能——拥抱。

这款毛衣状的覆盖物由抓握材料制成,在坚硬的金属骨架上提供了一个柔软的缓冲层。织物中嵌入的触觉传感器可以让普尼奥精确地感知它所拥抱的东西,无论是人还是物体。

普尼奥没有传统的手,取而代之的是丰田称之为“爪子”的东西。这些“爪子”更像是充气蹄子,内侧印有小点。当爪子触摸到物体时,小点会变形,从而揭示接触的形状和力度。通过摄像头捕捉到这种变形后,将信息直接反馈给机器人的“大脑”,帮助其有效抓取物体。

普尼奥的胳膊由一系列充满空气的气囊、气管和压力传感器组成,从肩膀延伸到手腕。这些气囊可以单独调节压力,根据手头任务实现最佳的刚度。

丰田研究院的机器人科学家通过远程操作训练普尼奥处理各种大型物体, 它的一些技能包括: 倾斜和抬起:普尼奥向前倾斜,将物品抱到胸前,然后向后倾斜抬起它们。

堆积物品:普尼奥甚至能够堆积物品,使其适应不同的场景。肩扛物体:把大桶水放到普尼奥的肩膀上,会稳稳地固定住。

17

4、奔驰汽车工厂试点 Apollo 机器人:从事搬运、装配等繁重体力活

IT 之家 3 月 16 日消息, 德国车企梅赛德斯-奔驰( Mercedes-Benz) 宣布和通用仿人机器人开发商 Apptronik 宣布达成协议, 双方将合作探索高科技机器人 Apollo, 主要从事搬运、装配零部件等繁重的低技能劳动。

根据双方协议,奔驰将启动试点项目,在汽车制造过程中,测试 Apptronik 公司的 Apollo 仿人机器人执行各种任务的能力,例如向生产线运送组装套件、检查零部件等等。

奔驰表示相比较全面升级汽车生产流水线,Apollo 机器人的运用可以降低员工工伤情况,自动化复杂、重复和枯燥的任务,进一步释放生产力。

Apptronik 公司联合创始人兼首席执行官杰夫-卡德纳斯( Jeff Cardenas)说:“未来几年会继续向其它企业推广这种机器人模式”。

IT 之家从报道中获悉,Apollo 仿人机器人高 173 厘米,重 73 千克,能举起重达 25 千克的重物,定位是在工业环境中辅助员工。

18

5、联想推出“Daystar Bot GS”机器狗:6 腿设计、支持 IP66 防水

联想推出一款“ Daystar Bot GS”机器狗,这款机器狗外观有点类似此前波士顿动力公司推出的同款产品,不过相对波士顿机器狗多了一双腿(共6条腿)。

据介绍,这款机器狗主要用于轻松穿越不同的地形,号称拥有“ 先进的控制系统、尖端的感知算法和 IP66 保护”、“可以在任何地点和时间进行全面的数据收集工作”。

IT 之家查询官网消息得知,这款机器狗将在2024年晚间发布,主要面向贸易、工业和公共部门提供。

近年来,以微创医疗机器人为代表的高性价比国产品牌纷纷入局,鑫君特作为骨科手术机器人行业的一员,也呈现出了强劲的发展势头。ORTHBOT 已经成功推广并应用于上海、陕西、湖南、湖北、江西、广东、山东、河南、辽宁、新疆等十余个省市、自治区的三甲医院。

鑫君特创始人、董事长兼首席执行官姜黎威表示,鑫君特的部分技术标准的建立及创新填补了国内空白。例如“ 智动置针”功能的动力装置,自主动力装置在当时的机器人检测标准中属于空白。

此前,鑫君特通过大量调研,发现“ 自动置针”功能的动力装置与医生手持的手术器械存在很多相似之处,便参照相关手术器械、工业自动化等共 6 项国家标准,同时结合临床应用场景、增加术中患者保护部分的内容, 最终研发出了一套这样的动力装置。

目前,鑫君特积极参与以中检院为归口单位的国内医用机器人行业标准的制定和讨论,为推动医用机器人标准发展贡献“ 深圳力量”。

19

6、七腾机器人将发布新品“防爆四足机器人”

3月2日,七腾机器人将在北京国家会议中心举行防爆四足新品发布会,这款防爆四足机器人约半人高,身披科技感十足的“战甲”,区别于常规轮式、履带机器人,其整机防爆及灵活的四足能适配更广泛的应用场景。发布会上,该公司负责人将首次公开解读防爆四足机器人的领先技术,并全面阐述品牌理念体系、定位诠释等内容的升级。

七腾机器人是一家集特种机器人设计、研发、生产、销售、服务为一体的高新技术企业,在应急安全领域处于头部地位。此次防爆四足机器人的面世,有望创造七腾机器人发展历程中的又一里程碑,以及危险作业场景巡检工作的又一次革新。凭借该款防爆四足机器人较强的环境适应性,其巡检领域将从高危行业向森林、沙漠、岩地、林区等复杂地形拓展,为海内外更多有需求的客户提供智慧巡检解决方案。

7、国产人形机器人整活!打破人形机器人速度世界记录,还会跳科目三

近日,一款跳着科目三的人形机器人视频火爆 B 站。不仅可以跳舞,机器人还能原地摸高、搬运、旋转下楼。这款人形机器人就是国内知名机器人公司宇树科技推出的通用人形机器人—— H1。据宇树科技介绍, H13.0 版已打破了全尺寸人形机器人速度世界纪录, 达到了 3.3m/s, 之前的纪录约为 2.5m/s。

2023 年 8 月,宇树发布了其通用人形机器人 H1。外形上,H1 身高约 1.8 米,体重约 47 公斤, 单腿关节为 5 自由度, 单手臂为 4 自由度,步行速度 1.5 米/秒, 与成人步速相当。H1 关节单元中核心零部件包括伺服电机、减速器、控制器均为宇树自研自产。

宇树科技称, H1 是国内第一款能跑的全尺寸通用人形机器人,也是全球同类规格中功率性能最高的机器人。由于搭载了宇树内部开发的 M107 关节电机,机器人的动力性能强,运动灵活性、速度、续航包括负载能力都有显著提升。

M107 关节电机是宇树科技专门为人形机器人 H1 设计的,扭矩密度更高,应用在 H1 人形机器人的两个膝关节上,峰值扭矩达到 360N·m,而髋关节电机扭矩则为 220N·m,踝关节为 45N·m,手臂关节则为 75N·m。

得益于 M107 大功率高密度关节电机的强大性能, H1 人形机器人全身拥有19个自由度,展现出卓越的运动能力。其中拥有10个自由度,能够实现高度灵活的步伐调整配备1个自由度,确保动作流畅自然;手臂则拥有8个自由度,使其能够执行复杂的操作任务。

在通用性方面,目前 H1 人形机器人已搭载 3D 激光雷达,可以实现自主避障和定位导航功能。

在续航方面, H1 人形机器人搭载了 15Ah 的电池,最大电压为67.2V,确保了连续1小时的运动续航能力。

值得一提的是,其通用人形机器人 H1(灵巧手选配)研发只用了半年,并且在同年下半年就实现了小批量量产和发货。

2023年11月,宇树科技更新了 H12.0升级版,视频中的人形机器人踹不倒,还能顺利穿过障碍物。

20

4. 投融资事件

3 月企业投融资事件

主体

简介

融资情况

本轮投资方

 

粤十机器人

深圳粤十机器人科技有限公司成立于2022年 11月,由北京大学,浙江大学,香港大学博士团队联合创办。公司将人工智能、环境感知、深度学习、伺服控制等核心技术专利应用于工业无人驾驶领域,业务覆盖冷链无人工厂、机器人云平台及冷链智能机器人。

 

数千万元 Pre-A2 轮融资

 

金沙江联合资本

 

智谱 AI

智谱 AI 致力于打造新一代认知智能通用模型,合作研发双语千亿级超大规模预训练模型 GLM-130B,并基于此打造 ChatGLM(chatglm.cn)。此外,智谱 AI 还推出了认知大模型平台 Bigmodel.ai,包括 CodeGeeX 和CogView 等产品,提供智能 API 服务。

 

 

北京市人工智能产业投资基金

 

 

Taalas

Taalas 由 Ljubisa Bajic、Drago Ignjatovic 和 Lejla Bajic 共同创立,其愿景是通过自动化流程,在芯片中实现所有类型的深度学习模型,包括 Transformers、SSM、Diffusers、MoE 等。该公司专有的创新技术使得其芯片能够容纳整个大型人工智能模型,无需外部存储器,为人工智能应用提供了前所未有的便捷性和高效性。

 

 

两轮共计5000万美元融资

 

 

 

MiniMax

MiniMax 由商汤科技的一些前员工于2021年创立,其中包括商汤科技前副总裁、商汤研究院副院长闫俊杰。该公司正在研究类似于 ChatGPT 的人工智能解决方案。

 

 

阿里领投

 

 

 

 

 

© 版权声明
THE END
如本文“对您有用”,欢迎随意打赏作者!
点赞7打赏作者 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容