StreamMultiDiffusion:交互式实时AI绘画系统,支持多文本提示+局部重绘
“StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control”
StreamMultiDiffusion可以根据用户指定的区域,结合多文本提示,生成...
DreamWalk:实现对图像生成风格和内容的精细控制
在图像生成领域,精确控制图像的风格和特征一直是一个具有挑战性的问题。然而,DreamWalk技术的出现为这一难题提供了解决方案,使得用户可以更加自由地决定图像中哪部分应该更加强烈地体现...
简单地把人和背景给拆开,这下想去哪就去哪了(Stable Diffusion进阶篇:Layer Diffusion2)
在上一篇笔记中简单学习了Layer Diffusion的操作方法,其实也不难,主要的问题是现在这个Layer Diffusion还不太成熟。
目前大家比较熟悉的WebUI对于这项技术适配程度不高,很容易出问题。为...
PoseAnimate:首个高质量零样本角色动画生成方法
“PoseAnimate: Zero-shot high fidelity pose controllable character animation”论文地址:https://arxiv.org/pdf/2404.13680.pdf
摘要
PoseAnimate是一个...
阿里发表DivAvatar,简单提示即可生成多样化3D人物头像,单张V100即可运行
“DivAvatar: Diverse 3D Avatar Generation with a Single Prompt”
近日,阿里发表了DivAvatar,解决了当前头像方法中普遍存在的多样性挑战。DivAvatar能够从单个文本...
超级重磅!Meta发布开源大语言模型Llama 3系列
说到开源大语言模型,最重要的就是Meta的Llama系列,尤其是去年发布的Llama2,成了很多大学、研究机构、甚至初创公司研究及开发大语言模型的基础。
大家一直都在期待Meta发布Llama 3,原...
新版DALL-E好不好用?你必须知道的新功能
目前AI绘画的三大王者:Midjourney、Stable Diffusion、DALL-E,可以说是各有特色。因为托身于ChatGPT这样的自然语言大模型,DALL-E是这三大王者中对提示词理解能力最强的,也是唯一使用自...
谷歌发布基础世界模型Genie:11B参数,单张图生成可交互的虚拟世界
谷歌最新发布了基础世界模型Genie,这一模型拥有110亿参数,能够生成可交互的虚拟世界。Genie的出现让人们看到了人工智能在虚拟世界的无限可能性。Genie可以在没有动作标签的情况下学习控制...
新加坡国立大学研究人员设计出一种利用鱼鳞传递加密信息的方法
科学家们设计出了一种利用鱼鳞传递加密信息的方法。这项技术不仅能将海鲜业的废弃物从垃圾填埋场转移出来,而且成本也低于特殊油墨等现有方案。这项技术是由 Sow Chorng Haur 教授领导的新加...
美团&浙大发表MobileVLM V2,端侧实时运行,更快更强的轻量化VLM
“MobileVLM V2: Faster and Stronger Baseline for Vision Language Model”
大模型的轻量化已经成为了业界追逐的热点,近日,美团、浙大发表了MobileVLM V2。MobileVLM ...