“DivAvatar: Diverse 3D Avatar Generation with a Single Prompt” 近日,阿里发表了DivAvatar,解决了当前头像方法中普遍存在的多样性挑战。DivAvatar能够从单个文本...
1天前 18

说到开源大语言模型,最重要的就是Meta的Llama系列,尤其是去年发布的Llama2,成了很多大学、研究机构、甚至初创公司研究及开发大语言模型的基础。 大家一直都在期待Meta发布Llama 3,原...
1天前 22

目前AI绘画的三大王者:Midjourney、Stable Diffusion、DALL-E,可以说是各有特色。因为托身于ChatGPT这样的自然语言大模型,DALL-E是这三大王者中对提示词理解能力最强的,也是唯一使用自...
1天前 81

谷歌最新发布了基础世界模型Genie,这一模型拥有110亿参数,能够生成可交互的虚拟世界。Genie的出现让人们看到了人工智能在虚拟世界的无限可能性。Genie可以在没有动作标签的情况下学习控制...
1天前 18

科学家们设计出了一种利用鱼鳞传递加密信息的方法。这项技术不仅能将海鲜业的废弃物从垃圾填埋场转移出来,而且成本也低于特殊油墨等现有方案。这项技术是由 Sow Chorng Haur 教授领导的新加...
1天前 66

“MobileVLM V2: Faster and Stronger Baseline for Vision Language Model” 大模型的轻量化已经成为了业界追逐的热点,近日,美团、浙大发表了MobileVLM V2。MobileVLM ...
1天前 63

“TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document” 由华科和金山联合开发的Monkey多模态大模型早前已被人工智能领域国际顶级会议CVPR2024...
1天前 77

DataDreamer 是一款开源 Python 库,旨在简化和管理大语言模型(LLMs)的工作流程。 DataDreamer 提供了一套功能,大大降低了有效使用 LLMs 的障碍。 DataDreamer 的方法论集成了解决 LL...
1天前 15

“SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion” Stability AI日前发布了用于3D视频模型Stable Video 3D...
1天前 17

       我们发现,提示和图像之间的错位主要源于交叉层和自我注意力层的语义泄漏。Bounded Attention 通过赋予每个主体“Be yourself”的能力来解决这个问题,优先考虑个性并尽量减少图像中...
1天前 12
显示验证码