华科&金山发表TextMonkey,通用文档理解大模型,刷新多个SOTA
“TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document”
由华科和金山联合开发的Monkey多模态大模型早前已被人工智能领域国际顶级会议CVPR2024...
研究人员推一款开源Python库DataDreamer:可通过编写简单代码简化和管理LLM工作流程
DataDreamer 是一款开源 Python 库,旨在简化和管理大语言模型(LLMs)的工作流程。
DataDreamer 提供了一套功能,大大降低了有效使用 LLMs 的障碍。
DataDreamer 的方法论集成了解决 LL...
Stability AI发布Stable Video 3D,单张图片即可生成高质量3D视频,模型已开源,单张4090即可运行
“SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion”
Stability AI日前发布了用于3D视频模型Stable Video 3D...
Be yourself:引入Bounded Attention这是一种无需训练的技术,用于调节多主体图像的准确生成
我们发现,提示和图像之间的错位主要源于交叉层和自我注意力层的语义泄漏。Bounded Attention 通过赋予每个主体“Be yourself”的能力来解决这个问题,优先考虑个性并尽量减少图像中...
Comflowyspace:简单好用的Comfy UI整合包 小白也能轻松上手
Comflowyspace 是一款专为用户提供方便快捷的 Comfy UI 整合包。该整合包解决了安装 Comfy UI 复杂且容易遇到各种问题导致安装失败的问题,只需一键安装,几分钟即可成功。这使得即使是小白...
数字人的全新标杆:DreamWorld AI推出全身运动捕捉技术
DreamWorld AI公司最新推出的全身运动捕捉技术确实是一项具有突破性的创新。与传统的运动捕捉技术相比,它无需穿戴特殊装备或使用追踪标记,只需使用单镜头摄像设备即可实现。这一技术的核...
英特尔揭示微软Copilot本地运行条件:NPU需求触发下一代AI PC时代的来临
在中国台湾举行的英特尔人工智能峰会上,英特尔透露了微软的Copilot人工智能大模型的本地运行条件:至少需要40 TOPS算力的NPU。这一消息意味着Copilot将可以在搭载英特尔CPU的PC上进...
RiskLabs:基于多源数据的大模型金融风险预测方法
“RiskLabs: Predicting Financial Risk Using Large Language Model Based on Multi-Sources Data”
论文地址:https://arxiv.org/pdf/2404.07452.pdf
摘要
...
微软新工具LLMLingua-2:可将 AI 提示压缩高达80%,节省时间和成本
微软研究发布了名为 LLMLingua-2的模型,用于任务不可知的提示压缩。该模型通过智能地去除长提示中的不必要词语或标记,同时保留关键信息,使得提示长度可减少至原长度的20%,从而降低成本和...
谷歌发表Infini-Transformer,开启无限上下文Transformer新纪元
“Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention”
传统的Transformer模型在处理长序列数据时,往往受到内存和计算资源的限...