
IT之家 1 月 28 日消息,就在北京时间今日凌晨,DeepSeek 宣布开源全新的视觉多模态模型 Janus-Pro-7B,其在 GenEval 和 DPG-Bench 基准测试中击败了 Stable Diffusion 和 OpenAI 的 DALL-E 3。
IT之家附地址:
官方对该模型的介绍大意如下:
摘要的大意如下:
Janus-Pro 是先前工作 Janus 的进阶版本。具体来说,Janus-Pro 整合了优化的训练策略、扩展的训练数据,以及更大模型规模的扩展。通过这些改进,Janus-Pro 在多模态理解和文本到图像指令遵循能力方面取得了显著进展,同时还增强了文本到图像生成的稳定性。
据官方介绍,JanusFlow 引入了一种极简架构,它将自回归语言模型与校正流(一种最先进的生成模型方法)相集成。研究发现,校正流可以直接在大型语言模型框架内进行训练,无需复杂的架构调整。大量实验表明,JanusFlow 在各自领域内取得了与专用模型相当甚至更好的性能,同时在标准基准测试中显著优于现有的统一方法。这项工作代表着朝着更高效、更通用的视觉语言模型迈进了一步。