新闻公告-中国科学院自动化研究所图书馆

热线热线：010-82544500
移动
微信
邮件邮件：lib@ia.ac.cn
在线咨询
文献传递
图书荐购

新闻公告

当前位置：动态资讯

阿里开源HumanOmniV2多模态模型：精准捕捉视频隐藏信息，让 AI 读懂“人情世故”: 发布人：张桂英点击量：623 次; 7 月 8 日，阿里发布并开源能深度理解人类社交潜台词的多模态大模型 HumanOmniV2。该模型通过创新机制破解了传统 AI 对复杂社交场景的理解短板，在解读人类情感、意图及社会互动方面实现突破。HumanOmniV2 的核心创新在于引入了强制性上下文总结机制，要求模型在输出答案前先梳理视觉、听觉、语言等多模态信息，确保不遗漏关键线索。同时，其采用 LLM 驱动的多维度奖励机制，从上下文准确性...

百度发布自研模型MuseSteamer：一张图可生成电影级高清有声视频: 发布人：张桂英点击量：109 次; IT之家 7 月 2 日消息，百度商业研发团队发布自研视频生成模型“MuseSteamer”及创作平台“绘想”，MuseSteamer 是全球首个实现中文音视频一体化生成的视频模型。该技术可实现画面与音效、人声台词的协同创作，打破传统 AIGC 视频“先画面后配音”的割裂流程。据悉，MuseSteamer 在权威榜单 VBench I2V 中以 89.38% 总分登顶全球第一，支持一张图生成 10...

Mistral AI 发布开源语音模型Voxtral，全面超越Whisper: 发布人：张桂英点击量：711 次; 智东西 7 月 16 日消息，由谷歌和 Meta 前研究人员创立的 AI 初创公司 Mistral AI，发布了其首个开源语音模型：Voxtral 语音理解模型系列。该模型包含 24B 和 3B 两个参数规模版本，基于 Apache 2.0 许可证开源，并提供 API 服务接口。Voxtral 支持 32k token 的上下文窗口，可处理长达 30 分钟的音频转录任务或 40 分钟的语义理解任务...

昆仑万维发布全新开源模型Skywork-R1V3.0，跨模态理解能力超越GPT-4.5: 发布人：张桂英点击量：1142 次; 2025年7月9日，昆仑万维发布全新开源模型Skywork-R1V3.0。该模型基于上一代推理模型Skywork-R1V 2.0蒸馏数据进行“冷启动”，仅依赖约1.2万条监督微调样本和1.3万条强化学习样本，即实现了在复杂逻辑建模与跨学科泛化方面的双重飞跃。同时，该模型的设计不仅局限于文本，还涵盖了图像处理，使其在图像与文本之间的推理能力亦得到了显著提升。性能上，Skywork-R1V3.0的跨模...

美国xAI发布Grok 4，性能媲美GPT-5、Claude 4 Opus等业内顶级模型: 发布人：张桂英点击量：483 次; 7月10日，美国xAI发布最新旗舰AI大模型Grok4，包括单代理版Grok 4 和多代理版Grok 4 Heavy。据介绍，Grok 4在xAI的Colossus超级计算机上进行了训练，能做到GRE任何学科接近满分，推理能力甚至已经超越人类的推理水平。性能上，Grok 4拥有25.6万token的上下文窗口，其推理能力相较于前代提升了10倍，主打多模态功能，支持更复杂的交互形式，同时具备更快的...

英国利兹大学和伦敦大学学院团队研发AI系统，助力四足机器人自主适应复杂环境: 发布人：张桂英点击量：82 次; 科技日报7月14日消息，英国利兹大学和伦敦大学学院研究团队携手开发了一款人工智能（AI）系统，成功让四足机器人获得类似猫狗等动物对环境的适应能力，并使其能在陌生地形中自主调整步态，实现智能导航。这项研究发表于新一期《自然·机器智能》期刊。四足机器人正在不同地形进行步态训练。图片来源：英国利兹大学研究团队从自然界获得灵感，将猫、狗、马等四足动物根据需要调整步态以节省能量、保持平衡、应对威胁的生存智慧...

上海交通大学开发出AI触觉-视觉融合系统，突破机器人触觉闭环控制: 发布人：张桂英点击量：89 次; DeepTech深科技7月14日消息，上海交通大学与清华大学合作团队宣布，成功研发 AI 触觉 - 视觉融合系统。该系统通过多模态融合、提高闭环控制频率与高质量数据采集的协同设计，使机器人在接触密集型任务的完成效果提升了 35% 以上，即使在人类干扰下也能完成削黄瓜、擦花瓶等传统机器人难以完成的精细动作。该研究的核心在于创新的 TactAR 触觉采集系统与 RDP 算法。TactAR 依托 500...

麻省理工学院开发新型仿生膝关节：自主感知人体信号，让假肢动作更自然: 发布人：张桂英点击量：76 次; 科技日报7月14日消息，美国麻省理工学院研究团队开发出一种新型“仿生膝”关节假肢，与传统假肢相比，能够帮助膝上截肢者行走更快，更轻松地完成爬楼梯、跨越障碍等复杂动作。这项成果发表在最新一期《科学》杂志上，标志着假肢技术从被动辅助，转向主动感知与智能控制的重大飞跃。“仿生膝”直接与用户的肌肉和骨骼组织整合，让用户对假肢的控制更加自然。图片来源：美国麻省理工学院传统的假肢系统是将残肢置于接受腔中，而这...

美英多机构联合研发手术机器人，无人工干预下独立完成8例手术且成功率100%: 发布人：张桂英点击量：98 次; 手术机器人通常需要主刀医生远程控制，但它们或许很快就能“独立操刀”了。一台由人工智能（AI）驱动的手术机器人成功切除了一头死猪体内的胆囊。研究人员称，这是机器人在几乎没有人工干预的情况下完成的第一例真实手术。相关研究成果7月9日发表于《科学-机器人》。机器人给死猪做手术。图片来源：Juo-Tung Chen这台手术机器人由两层AI系统驱动。该系统基于17小时的手术视频训练，其中包含外科医生在手术...

谷歌发布Gemini Robotics On-Device，实现机器人AI模型本地化运行: 发布人：张桂英点击量：80 次; 6月24日，谷歌DeepMind推出全新机器人端侧模型Gemini Robotics On-Device，这是其首个可直接部署在机器人上的视觉-语言-动作（VLA）模型，基于多模态推理模型Gemini 2.0开发。该模型由加州大学伯克利分校、多伦多大学等机构联合支持，其配套的MuJoCo Playground模拟器刚获得机器人科学与系统会议杰出论文奖，标志着机器人智能研究的重要进展。Gemini ...

共142页 << < 1 2 3 4 5 6 7 8 9 10 > >>