记录每个月发生的一些 AI 大事
2025-03 | 2025-02 | 2025-01 | 2024-12 | 2024-11 | 2024-10 | 2024-09 | 2024-08 | 2024-07 | 2024-06 | 2024-05 | 2024-04 | 2024-03 | 2024-02 | 2024-01 | 2023-12 | 2023-11 | 2023-10 | 2023-09 | 2023-08 | 2023-07 | 2023-06 | 2023-05 | 2023-04 | 2023-03 | 2023-02 | 2023-01 | 2022-12 | 2022-11 | 2022-10 | 2022-09 | 2022-08 | 2022-07 | 2022-06 | 2022-05 | 2022-04 | 2022-03 | 2022-02 | 2021 | 2020 | 2019 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
模型 | Phi-4 系列模型发布,5.6B 模型实现强大的多模态能力 QwQ-32b 发布 ![]() olmOCR 发布,非常好用 | claude-3.7-sonnet 发布 Gemini 2.0 Pro 发布 PaliGemma 2 mix 发布(3b/10b/28b),支持多任务视觉能力:图像描述、OCR、目标检测、分割、文档理解、开放视觉语言提示 | OpenAI o3-mini 发布 OpenAI o3-mini-high 发布 qwen 2.5 VL 发布(3b/7b/72b) ![]() | OpenAI o1 正式版发布 Llama 3.3 发布(70b) ![]() qwen-qvq-72b-preview 发布,专注视觉推理的实验性模型 ![]() | claude-3.5-sonnet-20241022,与计算机进行交互 | OpenAI o1-preview 发布 OpenAI o1-mini 发布 Llama 3.2 发布(1b/3b/11b/90b) qwen2.5 发布(3b/14b/32b) ![]() | GPT-4o mini 发布 Llama 3.1 发布(1b/8b/70b/405b) | claude-3.5-sonnet 发布,编码能力提升 qwen 2 发布(0.5b/1.5b/7b/72b) | GPT-4o 发布 Gemini 2.0 Flash 发布 ![]() | Claude 3 发布 | Gemini 1.5 发布, 最高 10M 上下文 qwen 1.5 发布(1.8b/72b) | GPT-3.5-turbo 发布 | Gemini 1 发布 qwen 1.5 发布(0.5b/1.8b/4b/7b/14b/32b/72b/110b/MoE-A2.7B) | Baichuan2 发布 | qwen 1 发布(7b) | Claude 2 公众发布,支持 100K 上下文 | GPT-4发布 Claude 1 内测使用 | Llama 2.0 发布(7b/13b/70b) | GPT-3.5 发布 | ||||||||||||||||||||||
聊天机器人 | 推出 Alexa+ Raycast 发布 AI Extensions,低门槛实现 MCP Manus 发布 | 发布 Deep Research Gemini 支持基于过去的聊天记录进行回复 | 阶跃星辰发布跃问 | Minimax 发布海螺 | ![]() | 支持联网搜索功能(Web Search) | ChatGPT Plus 上线 New Bing 发布 | ChatGPT 发布 | |||||||||||||||||||||||||||||||||
AI 编程 | 发布 Claude Code Gemini Code Assist 发布 Windsurf 发布 Preview 能力,通过内置浏览器快速迭代和问题修复 Factory.ai 发布,有一个针对企业的AI编程员工 | ![]() ![]() Onlook, 给设计师用的 Cursor,可以通过聊天生成基于 React + TailwindCSS 的网页,可在 Cursor 进行二次编辑 ![]() Vercel AI SDK 支持 Artifacts,比如动态代码执行、图像生成、表格、地图等 | 发布 OmniParser V2,将任何LLM转换为计算机代理 Trae 发布 cursor-tools,通过 CLI 和 文档,让 Cursor 更强大 co.dev 上线,将用户用自然语言描述的应用创意自动转换为基于Next.js框架的完整代码 builder.io, 使用 AI 将 Figma 设计转化为功能齐全的全栈应用程序 Goose, 开源的半自动 Devin | AI 程序员 Devin 发布 qwen2.5 Coder 发布(0.5b/1.5b/3b/7b/14b/32b) | 发布 MCP 协议,支持第三方应用将上下文提供给 LLM ![]() ![]() | Cline 2.0 发布 | Replit 发布 | ![]() ![]() | MarsCode 发布 | ![]() | 发布通义灵码 | ![]() ![]() | GitHub Copilot 正式发布 | ||||||||||||||||||||||||||||
图片生成 | Pika 发布 PikaSwaps 功能,用你上传的照片或描述的场景替换视频中的任何内容 Recraft 上线图形设计风格功能 | ![]() | ![]() ![]() | Imagen 3 发布 ![]() | ![]() | Imagen 2 发布 | ![]() | DALL-E 3 发布 | ![]() | ![]() | ![]() | ![]() | DALL-E 2 发布 | ![]() | Imagen 1 发布 | DALL-E 发布 | |||||||||||||||||||||||||
视频生成 | 通义万相 2.1 发布 FlashVideo 发布 OmniHuman-1 数字人动画生成方案发布 | Sora 发布 Veo-2 发布 ![]() ![]() | Minimax 发布 abab-video-1 视频生成模型 | ![]() | Veo-1 发布 | ||||||||||||||||||||||||||||||||||||
语音识别与合成 | 阶跃发布 Step-Audio(130b),业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统 | ||||||||||||||||||||||||||||||||||||||||
具身智能 | Figure 发布 Helix | ||||||||||||||||||||||||||||||||||||||||
基础设施 | Hugging Face 发布超大规模的 GPU 集群 LLM 训练手册 | ![]() | ![]() | ![]() |