ChatHuman:一个模型实现3D数字人交互分析、3D姿势估计、情感分析
“ChatHuman: Language-driven 3D Human Understanding with Retrieval-Augmented Tool Reasoning”
项目主页:https://chathuman.github.io/
论文地址:https://arxiv.o...
Meta AI推MA-LMM:用于长视频理解的记忆增强多模态大模型
Meta AI近日推出了一种名为MA-LMM的新型模型,旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力,但在处理视频输入方面存在一些限制,例如上下文长度限制和GP...
国产Sora!突破16秒长视频、多镜头、模拟世界的AI大模型Vidu震撼首发!
前言
4月27日,在2024中关村论坛-未来人工智能先锋论坛上,清华大学联合生数科技正式发布「Vidu」,展现了与Sora极为相似的视觉效果,其表现力在多镜头叙事、时间及空间连贯性以及对物理法...
让照片也能对口型说话(AI工具篇:通义千问)
有段时间没写文章了,碰到键盘的一瞬间我自然而然地将手指放在了QWER上,我就知道热爱学习的那个我不见了。
像是我刚期末考玩准备通宵打游戏之前得玩两把人机复检一下,在我恢复正常的更...
一键智能抠图,还要啥PS(Stable Diffusion进阶篇:Layer Diffusion)
不知道有多少小伙伴是因为工作需要去学习Stable Diffusion的,像是设计师、动画从业人员等或多或少都会接触到AI绘画。
当然还有无孔不入的老色批们(例如我)
一些专业的人员会用PhotoShop...
ID-Aligner:要真实还要好看,结合美学评分的高保真身份保持生成方法
“ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning”
项目主页:https://idaligner.github.io/
论文地址:https://...
清华发表AutoWebGLM,基于大模型的自动网页导航Agent,让大模型帮我们浏览网页
“AutoWebGLM: Bootstrap And Reinforce A Large Language Model-basedWeb Navigating Agent”
AutoWebGLM是一个旨在构建更高效的语言模型驱动的自动web导航代理的项目。...
LinkIn最新研究,利用大模型提升客户技术支持服务质量,有效降低28.6%响应时间
本文介绍了一种将知识图谱与检索增强生成(RAG)相结合的客户服务问答方法。本方法利用历史问题构建知识图谱,保留了问题内部结构和问题间关系,提高了检索准确...
Adobe Photoshop测试版推出AI图像生成功能
Adobe Photoshop的最新测试版现已引入一项革命性的功能,允许用户通过简单的文本提示,利用人工智能技术生成图像。此外,新功能还提供了利用参考图像扩展和增添背景的能力,极大地丰富了图像...
StreamMultiDiffusion:交互式实时AI绘画系统,支持多文本提示+局部重绘
“StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control”
StreamMultiDiffusion可以根据用户指定的区域,结合多文本提示,生成...