“TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document” 由华科和金山联合开发的Monkey多模态大模型早前已被人工智能领域国际顶级会议CVPR2024...
2周前 140

DataDreamer 是一款开源 Python 库,旨在简化和管理大语言模型(LLMs)的工作流程。 DataDreamer 提供了一套功能,大大降低了有效使用 LLMs 的障碍。 DataDreamer 的方法论集成了解决 LL...
2周前 135

“SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion” Stability AI日前发布了用于3D视频模型Stable Video 3D...
2周前 95

       我们发现,提示和图像之间的错位主要源于交叉层和自我注意力层的语义泄漏。Bounded Attention 通过赋予每个主体“Be yourself”的能力来解决这个问题,优先考虑个性并尽量减少图像中...
2周前 52

Comflowyspace 是一款专为用户提供方便快捷的 Comfy UI 整合包。该整合包解决了安装 Comfy UI 复杂且容易遇到各种问题导致安装失败的问题,只需一键安装,几分钟即可成功。这使得即使是小白...
2周前 133

DreamWorld AI公司最新推出的全身运动捕捉技术确实是一项具有突破性的创新。与传统的运动捕捉技术相比,它无需穿戴特殊装备或使用追踪标记,只需使用单镜头摄像设备即可实现。这一技术的核...
2周前 28

      在中国台湾举行的英特尔人工智能峰会上,英特尔透露了微软的Copilot人工智能大模型的本地运行条件:至少需要40 TOPS算力的NPU。这一消息意味着Copilot将可以在搭载英特尔CPU的PC上进...
2周前 21

“RiskLabs: Predicting Financial Risk Using Large Language Model Based on Multi-Sources Data” 论文地址:https://arxiv.org/pdf/2404.07452.pdf 摘要 ...
2周前 30

微软研究发布了名为 LLMLingua-2的模型,用于任务不可知的提示压缩。该模型通过智能地去除长提示中的不必要词语或标记,同时保留关键信息,使得提示长度可减少至原长度的20%,从而降低成本和...
2周前 26

“Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention” 传统的Transformer模型在处理长序列数据时,往往受到内存和计算资源的限...
2周前 27
显示验证码