在最新的研究中,提出了一种名为注意力混合模式(MoA)的新架构,旨在个性化文本到图像扩散模型,可以实现风格参考和人物融合的效果。 受大型语言模型(LLMs)中使用的专家混合机制的启发,M...
6小时前 5

在今日举行的谷歌2024年I/O开发者大会上,谷歌公司正式推出了其全新搜索体验——“AI Overviews”,这标志着谷歌搜索引擎问世25年来的又一次重大更新。据悉,该体验将于本周首先在美国地区上线...
8小时前 5

在今日举行的谷歌2024I/O开发者大会上,谷歌正式推出了备受瞩目的全新视频生成模型——Veo。这款产品被视为对OpenAI三个月前推出的文本转视频工具Sora的直接挑战,旨在为用户提供更加高质量、...
9小时前 7

LLaVA++项目通过扩展现有的LLaVA模型,成功地为Phi-3和Llama-3模型赋予了视觉能力。这一改进标志着AI在多模态交互领域的进一步发展。 主要创新点包括: 模型整合: LLaVA++将Phi-3和Llama-3...
9小时前 6

Meta AI近日推出了一种名为MA-LMM的新型模型,旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力,但在处理视频输入方面存在一些限制,例如上下文长度限制和GP...
4天前 32

Adobe Photoshop的最新测试版现已引入一项革命性的功能,允许用户通过简单的文本提示,利用人工智能技术生成图像。此外,新功能还提供了利用参考图像扩展和增添背景的能力,极大地丰富了图像...
2周前 87

在图像生成领域,精确控制图像的风格和特征一直是一个具有挑战性的问题。然而,DreamWalk技术的出现为这一难题提供了解决方案,使得用户可以更加自由地决定图像中哪部分应该更加强烈地体现...
2周前 92

谷歌最新发布了基础世界模型Genie,这一模型拥有110亿参数,能够生成可交互的虚拟世界。Genie的出现让人们看到了人工智能在虚拟世界的无限可能性。Genie可以在没有动作标签的情况下学习控制...
4周前 237

科学家们设计出了一种利用鱼鳞传递加密信息的方法。这项技术不仅能将海鲜业的废弃物从垃圾填埋场转移出来,而且成本也低于特殊油墨等现有方案。这项技术是由 Sow Chorng Haur 教授领导的新加...
4周前 177

DataDreamer 是一款开源 Python 库,旨在简化和管理大语言模型(LLMs)的工作流程。 DataDreamer 提供了一套功能,大大降低了有效使用 LLMs 的障碍。 DataDreamer 的方法论集成了解决 LL...
4周前 154
显示验证码