AI 大事记

记录每个月发生的一些 AI 大事

提示：横向滚动查看完整时间线

模型

聊天机器人

AI 编程

图片生成

视频生成

语音识别与合成

具身智能

基础设施

	2025-03	2025-02	2025-01	2024-12	2024-11	2024-10	2024-09	2024-08	2024-07	2024-06	2024-05	2024-04	2024-03	2024-02	2024-01	2023-12	2023-11	2023-10	2023-09	2023-08	2023-07	2023-06	2023-05	2023-04	2023-03	2023-02	2023-01	2022-12	2022-11	2022-10	2022-09	2022-08	2022-07	2022-06	2022-05	2022-04	2022-03	2022-02	2021	2020	2019
模型	Phi-4 系列模型发布，5.6B 模型实现强大的多模态能力 QwQ-32b 发布浑元 Turbo S 发布 olmOCR 发布，非常好用	claude-3.7-sonnet 发布 Grok-3 发布 Grok-3 Mini 发布 Gemini 2.0 Pro 发布 PaliGemma 2 mix 发布(3b/10b/28b),支持多任务视觉能力:图像描述、OCR、目标检测、分割、文档理解、开放视觉语言提示	OpenAI o3-mini 发布 OpenAI o3-mini-high 发布 qwen 2.5 VL 发布(3b/7b/72b) DeepSeek R1 发布谁跟随实现了这个功能：	OpenAI o1 正式版发布 Llama 3.3 发布(70b) Kimi K1.5 发布 qwen-qvq-72b-preview 发布，专注视觉推理的实验性模型 DeepSeek V3 发布		claude-3.5-sonnet-20241022，与计算机进行交互	OpenAI o1-preview 发布 OpenAI o1-mini 发布 Llama 3.2 发布(1b/3b/11b/90b) qwen2.5 发布(3b/14b/32b) DeepSeek V2.5 发布	Grok-2 发布	GPT-4o mini 发布 Llama 3.1 发布(1b/8b/70b/405b)	claude-3.5-sonnet 发布，编码能力提升 qwen 2 发布(0.5b/1.5b/7b/72b)	GPT-4o 发布 Gemini 2.0 Flash 发布 DeepSeek V2 发布	Grok-1.5V 发布	Claude 3 发布 Grok-1.5 发布	Gemini 1.5 发布, 最高 10M 上下文 qwen 1.5 发布(1.8b/72b)	GPT-3.5-turbo 发布	Gemini 1 发布 qwen 1.5 发布(0.5b/1.8b/4b/7b/14b/32b/72b/110b/MoE-A2.7B)	Grok-1 发布		Baichuan2 发布	qwen 1 发布(7b)	Claude 2 公众发布，支持 100K 上下文				GPT-4发布 Claude 1 内测使用		Llama 2.0 发布(7b/13b/70b)										GPT-3.5 发布
聊天机器人	推出 Alexa+ Raycast 发布 AI Extensions，低门槛实现 MCP Manus 发布	发布 Deep Research 谁跟随实现了这个功能： Gemini 支持基于过去的聊天记录进行回复								阶跃星辰发布跃问	Minimax 发布海螺							Kimi 发布					支持联网搜索功能(Web Search) 谁跟随实现了这个功能：			ChatGPT Plus 上线 New Bing 发布		ChatGPT 发布				Perplexity 发布
AI 编程	发布 Claude Code Gemini Code Assist 发布 Windsurf 发布 Preview 能力，通过内置浏览器快速迭代和问题修复 Factory.ai 发布，有一个针对企业的AI编程员工	bolt.new 支持通过一句话生成原生 iOS 和安卓应用，并支持发布到 App Store 和 Google Play bolt.new 达到 300 万用户 Onlook, 给设计师用的 Cursor，可以通过聊天生成基于 React + TailwindCSS 的网页，可在 Cursor 进行二次编辑 Lovable 发布 Visual Edits 功能，支持选中样式直接编辑 Vercel AI SDK 支持 Artifacts,比如动态代码执行、图像生成、表格、地图等	发布 OmniParser V2，将任何LLM转换为计算机代理 Trae 发布 cursor-tools，通过 CLI 和文档，让 Cursor 更强大 co.dev 上线，将用户用自然语言描述的应用创意自动转换为基于Next.js框架的完整代码 builder.io, 使用 AI 将 Figma 设计转化为功能齐全的全栈应用程序 Goose, 开源的半自动 Devin	AI 程序员 Devin 发布谁跟随实现了这个功能： qwen2.5 Coder 发布(0.5b/1.5b/3b/7b/14b/32b) Windsurf 发布	发布 MCP 协议，支持第三方应用将上下文提供给 LLM 谁跟随实现了这个功能： bolt.new 发布 Lovable 发布	Cline 2.0 发布	Replit 发布	切换默认模型为 Claude 3.5 Sonnet 谁跟随实现了这个功能：支持 Agent 模式 (也叫 Cursor Composer、YOLO Mode) 谁跟随实现了这个功能：		MarsCode 发布		通过 cursorrules 文件，设定全局的项目要求谁跟随实现了这个功能：						发布通义灵码							Cursor 发布支持 Tab Jump,不仅提供基本的自动补全功能，还能在用户进行任何变更后，自动跳转到预计需要修改的地方谁跟随实现了这个功能：									GitHub Copilot 正式发布
图片生成		Pika 发布 PikaSwaps 功能,用你上传的照片或描述的场景替换视频中的任何内容 Recraft 上线图形设计风格功能		Aurora 发布	Flux.1 Ultra/Raw 发布	Flux.1 Pro 发布 Stable Diffusion 3.5 发布			Midjourney V6.1 发布		Imagen 3 发布 Flux.1 Schnell/Dev 发布			Stable Diffusion 3.0 发布	Niji 6 发布	Imagen 2 发布 Midjourney V6 发布 (alpha)	SDXL Turbo 发布			DALL-E 3 发布	SDXL 1.0 发布	Midjourney V5.2 发布	Midjourney V5.1 发布	Niji 5 发布	Midjourney V5 发布 (alpha)			Stable Diffusion 2.1 发布 Niji 发布	Stable Diffusion 2.0 发布 Midjourney V4 发布 (alpha)	Stable Diffusion 1.5 发布	DALL-E 2 发布	Stable Diffusion 1.1-1.4 发布	Midjourney V3 发布		Imagen 1 发布	Midjourney V2 发布		Midjourney V1 发布	DALL-E 发布
视频生成		通义万相 2.1 发布 FlashVideo 发布 OmniHuman-1 数字人动画生成方案发布		Sora 发布 Veo-2 发布 HunyuanVideo 发布可灵 1.6 发布				Minimax 发布 abab-video-1 视频生成模型	可灵上线，支持文生视频和图生视频		Veo-1 发布
语音识别与合成		阶跃发布 Step-Audio(130b),业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统
具身智能		Figure 发布 Helix
基础设施		Hugging Face 发布超大规模的 GPU 集群 LLM 训练手册																																					幻方量化投资10亿元，建立具备万张 A100 的“萤火二号” 超算中心	具备 1100 块 GPU 的“萤火一号” 投入使用	幻方量化投资两亿元，建立具有 500 块 GPU 的 “萤火一号” 超算中心