DeepSeek推出原生稀疏注意力机制NSA,重塑长文本建模
发布人:张桂英 点击量:25 次
AI寒武纪2月18日消息,DeepSeek研究团队推出原生稀疏注意力(Native Sparse Attention,NSA)机制,旨在实现高效的长上下文建模。长上下文建模对于下一代语言模型至关重要,但传统注意力机制的计算复杂度随着序列长度的增加而呈平方级增长,成为制约模型发展的关键瓶颈。同时,现有稀疏注意力方法存在推理效率的“假象”,仅在自回归解码时稀疏,预填充阶段仍需大量计算,且与现代高效解码...
DeepSeek团队新作:把代码变成思维链,大模型推理各种能力全面提升
发布人:张桂英 点击量:43 次
量子位 2 月 17 日消息,DeepSeek团队发布了一项最新研究,通过将代码转换成思维链的方式,全面提升了大模型的各种推理能力。研究团队认为,在代码当中暗含了不同类型场景的思考过程,于是想要把这种思考过程“提取”出来训练推理模型。他们利用300多万个实例构建了数据集CODEI/O,并对Qwen、Llama等模型进行了训练。结果显示,模型不仅在代码相关任务上表现出色,还在非代码类推理任务中展现出...
智谱 GLM-PC 与 OpenAI Operator:AI智能体的新突破
发布人:张桂英 点击量:133 次
智谱 GLM-PC :视觉驱动的电脑端全能助手1月23日,智谱发布全球首个面向公众、回车即用的电脑智能体GLM-PC。它基于智谱多模态大模型CogAgent构建,融入“深度思考”模式,具备逻辑推理和代码生成功能,拥有类似人类对计算机的观察与操作能力,助力用户高效完成各类电脑任务。下载体验地址:https://cogagent.aminer.cnGLM-PC 融合智谱自研多模态模型 CogAgent...
k1.5 新模型登场:Kimi 如何做到满血版多模态o1水平(附技术报告)
发布人:张桂英 点击量:479 次
1月20日, Kimi发布的全新SOTA模型 ——k1.5 多模态思考模型。这是继去年 11 月发布 k0-math 数学模型、12月发布 k1 视觉思考模型之后,连续第三个月带来 k 系列强化学习模型的重磅升级。一、k1.5多模态思考模型K1.5性能方面,实现了 SOTA级别的多模态推理和通用推理能力。具体来说,在 short - CoT 模式下,k1.5 的数学、代码、视觉多模态和通用能力大幅...
DeepSeek-R1 发布,性能对标 OpenAI o1 正式版
发布人:张桂英 点击量:3184 次
1月20日,来自杭州的深度求索(DeepSeek)发布 DeepSeek-R1模型,并同步开源模型权重。DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。DeepSeek-R1上线API,对用户开放思维链输出,通过设置 `model=deepseek-reasoner` 即可调用。DeepSeek 官网与 App 即日起同步更新上线。性能对齐Ope...
阶跃星辰推出推理模型Step Reasoner mini
发布人:张桂英 点击量:226 次
1月16日,阶跃星辰推出自研推理模型 Step Reasoner mini(简称Step R-mini)。Step Reasoner mini 是 Step 系列模型家族的首个推理模型,擅长主动进行规划、尝试和反思,能通过慢思考和反复验证的逻辑机制,为用户提供准确可靠的回复。它既擅长通过超长推理能力,解决逻辑推理、代码和数学等复杂问题,也能兼顾文学创作等通用领域。目前,阶跃星辰自研的 Step 系...
智谱Realtime、4V、Air新模型发布,上线bigmodel.cn
发布人:张桂英 点击量:308 次
1月16日,智谱发布全新端到端模型GLM-Realtime,并同步升级已有模型GLM-4-Air和GLM-4V-Plus,所有模型 API 已上线 bigmodel.cn,具体内容如下:一、新模型GLM-Realtime,限时免费GLM-Realtime在视频通话上具备2分钟的内容记忆能力。在语音交互方面,尤其创新性地实现了清唱功能,首次让大模型具备在对话中的歌唱能力。 Realtime API已...
AI发展:训练数据即将遭遇瓶颈
发布人:张桂英 点击量:89 次
AI几乎读取了互联网上的所有内容,但仍渴望获得更多数据。为此,开发人员必须寻找变通之道。图片来源:twistedsifter.com得益于神经网络规模的扩大以及海量数据的训练,人工智能(AI)在过去10年间突飞猛进。“做大做强”的策略,在构建大型语言模型(LLM)上取得了显著成果,ChatGPT就是一个典型的例子。然而,《自然》《麻省理工科技评论》等多家杂志网站指出,AI扩展正逼近极限。一方面,A...
IDC发布2025年具身智能机器人七大发展趋势
发布人:张桂英 点击量:131 次
1月6日,IDC咨询发布《2025具身智能机器人发展趋势》,趋势包括3D视觉与触觉感知能力提升、轻量化模型加速落地、仿真环境与世界模型的持续完善、数据集共建共享、多种机器人载体形态共同发展、细分场景下的具身智能机器人展现应用价值,以及人形机器人在商用服务与特种应用有望实现小规模商用落地。趋势一:3D视觉、触觉感知能力提升视觉依然是具身智能机器人的主要感知能力,3D视觉感知将进一步提升机器人对环境、...
《麻省理工科技评论》发布2025年“十大突破性技术”
发布人:张桂英 点击量:92 次
据麻省理工科技评论1月3日消息,《麻省理工科技评论》当日发布2025年度“十大突破性技术”,包括:Vera C. Rubin天文台;生成式人工智能搜索;小语言模型;牛打嗝治疗方法;无人驾驶出租车;清洁航空燃料;快速学习机器人;长效艾滋病毒预防药物;绿色钢铁;有效干细胞疗法。一、Vera C. Rubin 天文台:探索宇宙的新窗口Vera C. Rubin 天文台犹如人类伸向宇宙深处的一只巨眼,即将...
共123页 <<  < 1 2 3 4 5 6 7 8 9 10 >  >>