近日,腾讯开源了旗下的混元大模型Hunyuan-DiT。模型含有15亿参数量,在文本-图像一致性、排除AI伪像的能力、主题清晰度和美感等任务上取得全面SOTA。   目前已在 Hug...
3天前 22

摘要 SemCity是一个3D Diffusion模型,用于在现实世界的户外环境中生成语义场景。与合成数据不同,真实的户外数据集由于传感器限制通常包含更多的空白空间,这给学习真实户外...
3天前 182

“GENEOH DIFFUSION: TOWARDS GENERALIZABLE HAND-OBJECT INTERACTION DENOISING VIA DENOISING DIFFUSION” 电影《钢铁侠》中史塔克可以通过挥动双手直接操作全息投影中...
5天前 35

“A Unified Debugging Approach via LLM-Based Multi-Agent Synergy” 对于程序员来说,找BUG是一个痛苦的过程。目前的大模型已经可以自己写代码了,那是否可以实现自动D...
6天前 39

你是否还在为如何创作一个漫画故事发愁?让我们来看看字节和南开发表的StoryDiffusion,让AI自动生成一个好的漫画故事。 项目主页:https://storydiffusion.github.io/ ...
7天前 47

“ChatHuman: Language-driven 3D Human Understanding with Retrieval-Augmented Tool Reasoning” 项目主页:https://chathuman.github.io/ 论文地址:https://arxiv.o...
1周前 73

“ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning” 项目主页:https://idaligner.github.io/ 论文地址:https://...
2周前 50

“AutoWebGLM: Bootstrap And Reinforce A Large Language Model-basedWeb Navigating Agent” AutoWebGLM是一个旨在构建更高效的语言模型驱动的自动web导航代理的项目。...
2周前 63

本文介绍了一种将知识图谱与检索增强生成(RAG)相结合的客户服务问答方法。本方法利用历史问题构建知识图谱,保留了问题内部结构和问题间关系,提高了检索准确...
2周前 45

“StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control” StreamMultiDiffusion可以根据用户指定的区域,结合多文本提示,生成...
3周前 125
显示验证码