AI项目和框架
AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。
新GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器
GigaTok 是用于自回归图像生成的视觉分词器,参数量达 30 亿。通过语义正则化技术,将分词器特征与预训练视觉编码器(如 DINOv2)的语义特征对齐,有效约束潜...
HumanRig – 阿里高德推出的3D人形角色自动绑定任务数据集
HumanRig 是阿里巴巴团队开发的 3D 人形角色自动绑定研究项目。解决现有绑定技术因缺乏高质量数据集而发展受限的问题,通过提供大规模、高质量的数据集和创新...
MineWorld – 微软研究院开源的实时交互式世界模型
MineWorld是微软研究院开源的基于《我的世界》(Minecraft)的实时交互式世界模型,基于视觉-动作自回归Transformer架构,将游戏场景和动作转化为离散的token...
FastAPI-MCP – 一键将 FastAPI 转换为 MCP 服务器的开源工具
FastAPI-MCP 是将 FastAPI 应用的端点自动转换为符合模型上下文协议(MCP)的开源工具。具有零配置的特点,只需简单指向 FastAPI 应用可自动发现并转换所有端...
FramePack – 斯坦福开源的视频生成技术
FramePack 是斯坦福大学推出用在视频生成的技术。基于压缩输入帧的上下文长度,解决视频生成中的“遗忘”和“漂移”问题,让模型能高效处理大量帧,保持较低的计...
MAI-DS-R1 – 微软开源的 AI 模型,基于 DeepSeek R1 改进版
MAI-DS-R1 是微软基于 DeepSeek R1 改进的AI模型。MAI-DS-R1基于后训练优化,支持响应 99.3% 的敏感话题提示,比原版提升 2 倍,将有害内容风险降低 50%。MAI...
InstantCharacter – 腾讯混元开源的定制化图像生成插件
InstantCharacter 是腾讯混元开源的定制化图像生成插件。基于扩散 Transformer(DiT)框架,引入可扩展的适配器(包含多个 Transformer encoder)和千万级样...
万相首尾帧模型 – 阿里通义开源的首尾帧生视频模型
万相首尾帧模型(Wan2.1-FLF2V-14B)是开源的14B参数规模的首尾帧生视频模型。模型根据用户提供的首帧和尾帧图像,自动生成流畅的高清视频过渡效果,支持多种...
GoodWeBot – 基于 RPA 技术开源的 AI 微信机器人
GoodWeBot 是开源的基于 RPA 技术开发的 AI 微信机器人, 支持一键免安装运行,用户下载后即可直接使用。工具已接入 Coze 等主流 AI,能实现智能回复、私聊群...
豆包1.5·UI-TARS – 字节豆包推出的 GUI Agent 模型
豆包1.5·UI-TARS是字节豆包推出的面向图形界面交互(GUI)的Agent模型。模型基于感知、推理和动作执行等类人能力,与图形界面进行连续、流畅的交互。模型将视...