DeepSeek 深夜再放大招：7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源

IT之家 1 月 28 日消息，就在北京时间今日凌晨，DeepSeek 宣布开源全新的视觉多模态模型 Janus-Pro-7B，其在 GenEval 和 DPG-Bench 基准测试中击败了 Stable Diffusion 和 OpenAI 的 DALL-E 3。

IT之家附地址：

官方对该模型的介绍大意如下：

摘要的大意如下：

Janus-Pro 是先前工作 Janus 的进阶版本。具体来说，Janus-Pro 整合了优化的训练策略、扩展的训练数据，以及更大模型规模的扩展。通过这些改进，Janus-Pro 在多模态理解和文本到图像指令遵循能力方面取得了显著进展，同时还增强了文本到图像生成的稳定性。

据官方介绍，JanusFlow 引入了一种极简架构，它将自回归语言模型与校正流（一种最先进的生成模型方法）相集成。研究发现，校正流可以直接在大型语言模型框架内进行训练，无需复杂的架构调整。大量实验表明，JanusFlow 在各自领域内取得了与专用模型相当甚至更好的性能，同时在标准基准测试中显著优于现有的统一方法。这项工作代表着朝着更高效、更通用的视觉语言模型迈进了一步。

正文

DeepSeek 深夜再放大招：7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源

相关阅读

医疗AI新星每因智能获千万融资，致力于精准疾病风险预测

哥伦比亚大学两位退学生打造“AI 面试作弊神器”，拿下 500 万美元融资

Reachy2机器人发布：互动自然，售价 7万美元

Adobe 为 Photoshop 和 Premiere Pro 开发 AI 代理，提供编辑建议并自动执行操作

目录[+]