“ChatHuman: Language-driven 3D Human Understanding with Retrieval-Augmented Tool Reasoning” 项目主页:https://chathuman.github.io/ 论文地址:https://arxiv.o...
2天前 24

Meta AI近日推出了一种名为MA-LMM的新型模型,旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力,但在处理视频输入方面存在一些限制,例如上下文长度限制和GP...
2天前 23

前言 4月27日,在2024中关村论坛-未来人工智能先锋论坛上,清华大学联合生数科技正式发布「Vidu」,展现了与Sora极为相似的视觉效果,其表现力在多镜头叙事、时间及空间连贯性以及对物理法...
2天前 29

有段时间没写文章了,碰到键盘的一瞬间我自然而然地将手指放在了QWER上,我就知道热爱学习的那个我不见了。 像是我刚期末考玩准备通宵打游戏之前得玩两把人机复检一下,在我恢复正常的更...
2天前 27

不知道有多少小伙伴是因为工作需要去学习Stable Diffusion的,像是设计师、动画从业人员等或多或少都会接触到AI绘画。 当然还有无孔不入的老色批们(例如我) 一些专业的人员会用PhotoShop...
3天前 37

“ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning” 项目主页:https://idaligner.github.io/ 论文地址:https://...
3天前 33

“AutoWebGLM: Bootstrap And Reinforce A Large Language Model-basedWeb Navigating Agent” AutoWebGLM是一个旨在构建更高效的语言模型驱动的自动web导航代理的项目。...
3天前 34

本文介绍了一种将知识图谱与检索增强生成(RAG)相结合的客户服务问答方法。本方法利用历史问题构建知识图谱,保留了问题内部结构和问题间关系,提高了检索准确...
3天前 29

Adobe Photoshop的最新测试版现已引入一项革命性的功能,允许用户通过简单的文本提示,利用人工智能技术生成图像。此外,新功能还提供了利用参考图像扩展和增添背景的能力,极大地丰富了图像...
1周前 78

“StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control” StreamMultiDiffusion可以根据用户指定的区域,结合多文本提示,生成...
2周前 107
显示验证码