- 阿里开源HumanOmniV2多模态模型:精准捕捉视频隐藏信息,让 AI 读懂“人情世故”
-
发布人:张桂英
点击量:623 次
- 7 月 8 日,阿里发布并开源能深度理解人类社交潜台词的多模态大模型 HumanOmniV2。该模型通过创新机制破解了传统 AI 对复杂社交场景的理解短板,在解读人类情感、意图及社会互动方面实现突破。HumanOmniV2 的核心创新在于引入了强制性上下文总结机制,要求模型在输出答案前先梳理视觉、听觉、语言等多模态信息,确保不遗漏关键线索。同时,其采用 LLM 驱动的多维度奖励机制,从上下文准确性...
- 百度发布自研模型MuseSteamer:一张图可生成电影级高清有声视频
-
发布人:张桂英
点击量:109 次
- IT之家 7 月 2 日消息,百度商业研发团队发布自研视频生成模型“MuseSteamer”及创作平台“绘想”,MuseSteamer 是全球首个实现中文音视频一体化生成的视频模型。该技术可实现画面与音效、人声台词的协同创作,打破传统 AIGC 视频“先画面后配音”的割裂流程。据悉,MuseSteamer 在权威榜单 VBench I2V 中以 89.38% 总分登顶全球第一,支持一张图生成 10...
- Mistral AI 发布开源语音模型Voxtral,全面超越Whisper
-
发布人:张桂英
点击量:711 次
- 智东西 7 月 16 日消息,由谷歌和 Meta 前研究人员创立的 AI 初创公司 Mistral AI,发布了其首个开源语音模型:Voxtral 语音理解模型系列。该模型包含 24B 和 3B 两个参数规模版本,基于 Apache 2.0 许可证开源,并提供 API 服务接口。Voxtral 支持 32k token 的上下文窗口,可处理长达 30 分钟的音频转录任务或 40 分钟的语义理解任务...
- 昆仑万维发布全新开源模型Skywork-R1V3.0,跨模态理解能力超越GPT-4.5
-
发布人:张桂英
点击量:1142 次
- 2025年7月9日,昆仑万维发布全新开源模型Skywork-R1V3.0。该模型基于上一代推理模型Skywork-R1V 2.0蒸馏数据进行“冷启动”,仅依赖约1.2万条监督微调样本和1.3万条强化学习样本,即实现了在复杂逻辑建模与跨学科泛化方面的双重飞跃。同时,该模型的设计不仅局限于文本,还涵盖了图像处理,使其在图像与文本之间的推理能力亦得到了显著提升。性能上,Skywork-R1V3.0的跨模...
- 美国xAI发布Grok 4,性能媲美GPT-5、Claude 4 Opus等业内顶级模型
-
发布人:张桂英
点击量:483 次
- 7月10日,美国xAI发布最新旗舰AI大模型Grok4,包括单代理版Grok 4 和 多代理版Grok 4 Heavy。据介绍,Grok 4在xAI的Colossus超级计算机上进行了训练,能做到GRE任何学科接近满分,推理能力甚至已经超越人类的推理水平。性能上,Grok 4拥有25.6万token的上下文窗口,其推理能力相较于前代提升了10倍,主打多模态功能,支持更复杂的交互形式,同时具备更快的...
- 英国利兹大学和伦敦大学学院团队研发AI系统,助力四足机器人自主适应复杂环境
-
发布人:张桂英
点击量:82 次
- 科技日报7月14日消息,英国利兹大学和伦敦大学学院研究团队携手开发了一款人工智能(AI)系统,成功让四足机器人获得类似猫狗等动物对环境的适应能力,并使其能在陌生地形中自主调整步态,实现智能导航。这项研究发表于新一期《自然·机器智能》期刊。四足机器人正在不同地形进行步态训练。图片来源:英国利兹大学研究团队从自然界获得灵感,将猫、狗、马等四足动物根据需要调整步态以节省能量、保持平衡、应对威胁的生存智慧...
- 上海交通大学开发出AI触觉-视觉融合系统,突破机器人触觉闭环控制
-
发布人:张桂英
点击量:89 次
- DeepTech深科技7月14日消息,上海交通大学与清华大学合作团队宣布,成功研发 AI 触觉 - 视觉融合系统。该系统通过多模态融合、提高闭环控制频率与高质量数据采集的协同设计,使机器人在接触密集型任务的完成效果提升了 35% 以上,即使在人类干扰下也能完成削黄瓜、擦花瓶等传统机器人难以完成的精细动作。该研究的核心在于创新的 TactAR 触觉采集系统与 RDP 算法。TactAR 依托 500...
- 麻省理工学院开发新型仿生膝关节:自主感知人体信号,让假肢动作更自然
-
发布人:张桂英
点击量:76 次
- 科技日报7月14日消息,美国麻省理工学院研究团队开发出一种新型“仿生膝”关节假肢,与传统假肢相比,能够帮助膝上截肢者行走更快,更轻松地完成爬楼梯、跨越障碍等复杂动作。这项成果发表在最新一期《科学》杂志上,标志着假肢技术从被动辅助,转向主动感知与智能控制的重大飞跃。“仿生膝”直接与用户的肌肉和骨骼组织整合,让用户对假肢的控制更加自然。图片来源:美国麻省理工学院传统的假肢系统是将残肢置于接受腔中,而这...
- 美英多机构联合研发手术机器人,无人工干预下独立完成8例手术且成功率100%
-
发布人:张桂英
点击量:98 次
- 手术机器人通常需要主刀医生远程控制,但它们或许很快就能“独立操刀”了。一台由人工智能(AI)驱动的手术机器人成功切除了一头死猪体内的胆囊。研究人员称,这是机器人在几乎没有人工干预的情况下完成的第一例真实手术。相关研究成果7月9日发表于《科学-机器人》。机器人给死猪做手术。 图片来源:Juo-Tung Chen这台手术机器人由两层AI系统驱动。该系统基于17小时的手术视频训练,其中包含外科医生在手术...
- 谷歌发布Gemini Robotics On-Device,实现机器人AI模型本地化运行
-
发布人:张桂英
点击量:80 次
- 6月24日,谷歌DeepMind推出全新机器人端侧模型Gemini Robotics On-Device,这是其首个可直接部署在机器人上的视觉-语言-动作(VLA)模型,基于多模态推理模型Gemini 2.0开发。该模型由加州大学伯克利分校、多伦多大学等机构联合支持,其配套的MuJoCo Playground模拟器刚获得机器人科学与系统会议杰出论文奖,标志着机器人智能研究的重要进展。Gemini ...
共142页
<<
<
1
2
3
4
5
6
7
8
9
10
>
>>