多模态大模型 - AI工具集

报道称DeepSeek V4 与腾讯姚顺雨混元模型 4 月同步发布

据《白鲸实验室》独家消息，备受期待的 DeepSeek V4 与姚顺雨新混元模型将于 2026 年 4 月正式发布。DeepSeek V4 是由梁文锋主导研发的多模态大模型，经过长期的打磨与提升，预计...

1周前

060

阿里通义发布 Fun-CineForge：开源影视级配音大模型，攻克音画同步难题

阿里通义实验室于3月16日正式发布并开源了影视级多场景配音多模态大模型 Fun-CineForge。该模型旨在解决 AI 配音中长期存在的口型不同步、情感表达缺失以及多角色音色不一致等核心痛点，并同步...

AI资讯 # AI新词 # 品牌产品词 # 多模态大模型

1周前

0130

小红书新款AI编辑模型FireRed-Image-Edit v1.1开源，攻克ID一致性与复杂融合难题

2026年3月9日，小红书Super Intelligence团队正式发布图像编辑模型FireRed-Image-Edit v1.1。此次更新距离1.0版本发布仅过去不足一个月，标志着小红书在多模态大...

AI资讯 # AI新词 # FireRed-Image-Edit # 多模态大模型

1周前

090

影视配音进入AI时代:通义实验室开源Fun-CineForge，首克多人对话难题

传统的 AI 配音在面对影视、动画等高标准场景时，常因难以匹配复杂的情绪爆发和精准口型而遭遇瓶颈。针对这一痛点，通义实验室正式发布并开源了首个影视级多场景配音多模态大模型——Fun-CineForge...

AI资讯 # AI新词 # 品牌产品词 # 多模态大模型

1周前

050

能自主决定何时“思考”！微软发布 Phi-4 15B 开源模型，主打小型化多模态

微软近日正式发布了全新的开源权重多模态大模型 Phi-4-reasoning-vision-15B。这款模型最大的技术突破在于其具备“自主决定思考时机”的能力——它能够智能判断任务难度，自主选择是快速...

AI资讯 # Phi-4-reasoning-vision-15B # 多模态大模型 # 微软

1周前

080

前字节视觉大模型 AI 平台负责人潘欣加盟美团出任多模态AI创新业务负责人

前字节跳动视觉大模型AI平台负责人潘欣已于本周到岗，出任多模态AI创新业务负责人，直接向美团技术委员会汇报。至此，这家市值千亿港元的生活服务巨头在 2025 年“外卖＋AI”战略中补齐了最核心的一块算...

AI资讯 # AI新词 # 多模态大模型 # 美团

1个月前

0230

智源研究院推出全球最强多模态世界模型Emu3.5 一键预测真实世界“下一秒”！

12月4日，北京智源人工智能研究院正式发布新一代多模态大模型Emu3.5，被誉为“真正理解物理世界的AI”。与以往图像、视频、文本模型各自为战不同，Emu3.5首次实现“世界级统一建模”，让AI从“会...

AI资讯 # AI新词 # Emu3.5 # 北京智源人工智能研究院

1个月前

0180

智谱开源 GLM-4.6V 系列：106B 原生支持 Function Call，轻量版 9B 免费商用

智谱正式并上线开源 GLM-4.6V 多模态大模型系列，含基础版 GLM-4.6V（总参106B，激活12B）与轻量版 GLM-4.6V-Flash(9B)。新模型将上下文窗口提升至128k toke...

AI资讯 # FunctionCall # GLM-4.6V # 多模态大模型

1个月前

0270

长跑型 AI 登场：Jan 团队发布 Jan-v2-VL，深度优化多步任务执行力

开源 AI 项目 Jan 团队近日正式推出了全新的多模态大模型 Jan-v2-VL-Max。这款拥有30B 参数的模型并非盲目追求通用性，而是精准锁定在“长周期执行任务”这一核心痛点上，旨在解决 AI...

AI资讯 # AI新词 # Jan-v2-VL-Max # LoRA-basedRLVR

1个月前

0190

Jan团队发布Jan-v2-VL-Max！30B多模态模型专攻长周期Agent任务，长序列执行稳超Gemini 2.5 Pro

在AI智能体（Agent）向复杂、多步任务演进的关键阶段，开源社区迎来一员新锐猛将。Jan团队今日正式发布 Jan-v2-VL-Max——一款300亿参数的多模态大模型，专为长周期、高稳定性自动化执行...

AI资讯 # AI新词 # Jan-v2-VL-Max # 多模态大模型

1个月前

0190