大型多模态模型(LMMs)将不断涌现,并在争论中取代LLMs。
项目代码:https://top.aibase.com/tool/wikichat
CogAgent作为在CogVLM基础上改进的开源视觉语言模型,拥有更多的功能和性能优势。它支持更高分辨率的视觉输入和对话答题,能够处理超高分辨率图像输入。
Paint3D 的技术实现主要分为两个阶段:粗糙纹理生成和纹理细化。在粗糙阶段,通过预训练的2D图像生成模型获取输入的引导信息,然后将这些信息反投影到3D模型的表面上,生成初始纹理贴图。
在实验中,Paint3D通过一系列的量化和定性实验证明了其在生成多样化纹理贴图方面的显著能力。通过评估FID得分和用户调研,实验结果显示Paint3D在纹理生成质量和符合输入条件方面都优于当前最佳的纹理生成算法。不仅如此,Paint3D还展示了多种输入条件引导的纹理贴图生成,包括文字描述和示例图像引导下的纹理生成。