Forwarded from Memordust
DeepSeek发布统一图像理解与生成的Janus-Pro系列模型
1月27日晚,DeepSeek发布了Janus-Pro系列,旨在统一图像理解和生成,并将其整合在单个模型中。该模型框架采用极简架构,将自回归语言模型与生成建模领域的前沿方法Rectified Flow相结合。
据涩橘的Telegram频道,Rectified Flow可以直接在大型语言模型框架内进行训练,无需复杂的架构修改。JanusFlow是一个支持图像多模态的LLM,参数量为70亿(7B),方便本地运行。训练方式采用传统的预训练和SFT,未使用强化学习。根据现有信息,JanusFlow在性能上超越了同参数量的其他模型。目前,线上Playground尚未开放,技术报告也暂未上传。据分析,JanusFlow旨在实现大模型视觉生成的端到端处理,相较之前的版本有所改进,但在图像生成质量上与专门的图像生成模型(如Stable Diffusion)相比仍有差距。模型输入输出分辨率为384x384。推测其技术实现可能整合了Rectified Flow、SigLIP和SDXL-VAE的架构,并将其集成到Transformer的解码器/编码器中,进行联合训练以对齐语义向量。虽然该成果的震撼程度不及V3和R1等重大突破,但仍然值得期待其未来的发展。
DeepSeek推动持续创新,即使在除夕也有新成果发布,展现了其强大的研发能力。虽然目前的JanusFlow在图像生成方面并非顶尖水平,但它为未来更大规模的多模态模型探索了道路,并为其他模型设定了新的基准。
#DeepSeek #多模态 #图像生成 #人工智能
1月27日晚,DeepSeek发布了Janus-Pro系列,旨在统一图像理解和生成,并将其整合在单个模型中。该模型框架采用极简架构,将自回归语言模型与生成建模领域的前沿方法Rectified Flow相结合。
据涩橘的Telegram频道,Rectified Flow可以直接在大型语言模型框架内进行训练,无需复杂的架构修改。JanusFlow是一个支持图像多模态的LLM,参数量为70亿(7B),方便本地运行。训练方式采用传统的预训练和SFT,未使用强化学习。根据现有信息,JanusFlow在性能上超越了同参数量的其他模型。目前,线上Playground尚未开放,技术报告也暂未上传。据分析,JanusFlow旨在实现大模型视觉生成的端到端处理,相较之前的版本有所改进,但在图像生成质量上与专门的图像生成模型(如Stable Diffusion)相比仍有差距。模型输入输出分辨率为384x384。推测其技术实现可能整合了Rectified Flow、SigLIP和SDXL-VAE的架构,并将其集成到Transformer的解码器/编码器中,进行联合训练以对齐语义向量。虽然该成果的震撼程度不及V3和R1等重大突破,但仍然值得期待其未来的发展。
DeepSeek推动持续创新,即使在除夕也有新成果发布,展现了其强大的研发能力。虽然目前的JanusFlow在图像生成方面并非顶尖水平,但它为未来更大规模的多模态模型探索了道路,并为其他模型设定了新的基准。
#DeepSeek #多模态 #图像生成 #人工智能
👍35💩4❤1
不存在的世界
DeepSeek 目前在 App Store 全球 152 个国家免费总榜上排名第一
说个小点:这也归功于 DeepSeek 的小语种能力,毕竟有 72 种发行语言😏
🥰35🆒6💩2👍1