| 标题 | 使用场景 |
|---|---|
| gemini-2.5-pro | 文案写作 |
| claude-sonnet-4-5-20250929-thinking | 数据分析、页面设计 |
| gpt-5 | 文案写作 |
| nano-banana | 图片制作 |
| sora-2 | 视频生成 |
| 模型名称 | 说明 |
|---|---|
| claude-sonnet-4 | Claude Sonnet 4 显著增强了其前身 Sonnet 3.7 的能力,在编码和推理任务中表现出色,具有更高的精确度和可控性。在 SWE-bench 上实现了最先进的性能(72.7%),Sonnet 4 在能力和计算效率之间取得了平衡,适用于从日常编码任务到复杂软件开发项目的广泛应用。主要改进包括增强的自主代码库导航、降低代理驱动工作流程中的错误率,以及在执行复杂指令时的可靠性。Sonnet 4 针对实际日常使用进行了优化,提供了先进的推理能力,同时保持在各种内部和外部场景中的效率和响应速度。 |
| claude-opus-4 | Claude Opus 4 被评为全球最优秀的编码模型,在发布时在复杂的长时间任务和代理工作流程中表现出持续的性能。它在软件工程方面设定了新的基准,在 SWE-bench(72.5%)和 Terminal-bench(43.2%)上取得了领先的成绩。Opus 4 支持扩展的代理工作流程,能够连续处理数千个任务步骤数小时而不出现性能下降。 |
| gemini-2.5-pro-preview | Gemini 2.5 Pro 是谷歌的最先进人工智能模型,专为高级推理、编码、数学和科学任务设计。它具有“思考”能力,能够以更高的准确性和细致的上下文处理能力进行推理。Gemini 2.5 Pro 在多个基准测试中表现出色,包括在 LMArena 排行榜上名列第一,反映出其优越的人类偏好对齐和复杂问题解决能力。 |
| gemini-2.5-flash-preview | Gemini 2.5 Flash 5 月 20 日检查点是谷歌最先进的工作模型,专为高级推理、编码、数学和科学任务设计。它内置“思考”功能,能够提供更高准确性和细致上下文处理的响应。 |
| gpt-4.1 | GPT-4.1 是一款旗舰级大型语言模型,针对高级指令跟踪、真实世界软件工程和长上下文推理进行了优化。它支持 100 万个 token 上下文窗口,在编码(54.6% SWE-bench 验证)、指令合规性(87.4% IFEval)和多模态理解基准测试中均优于 GPT-4o 和 GPT-4.5。它针对精确的代码差异、代理可靠性以及大文档上下文中的高召回率进行了调整,使其成为代理、IDE 工具和企业知识检索的理想选择。 |
| o3 | o3 是一个功能全面且强大的跨领域模型。它为数学、科学、编程和视觉推理任务树立了新的标准。它在技术写作和指令执行方面也表现出色。使用它来思考涉及跨文本、代码和图像分析的多步骤问题。请注意,此模型需要 BYOK |
| o4-mini | OpenAI o4-mini 是 o 系列中的一款紧凑型推理模型,经过优化,实现了快速、经济高效的性能,同时保留了强大的多模态和代理能力。它支持工具使用,并在 AIME(使用 Python 时准确率达 99.5%)和 SWE-bench 等基准测试中展现出极具竞争力的推理和编码性能,超越了其前身 o3-mini,甚至在某些领域接近 o3。 尽管体积较小,o4-mini 在 STEM 任务、视觉问题求解(例如 MathVista、MMMU)和代码编辑方面仍表现出极高的准确率。它尤其适用于对延迟或成本要求严格的高吞吐量场景。凭借其高效的架构和精益求精的强化学习训练,o4-mini 可以链接工具、生成结构化输出并以极低的延迟(通常不到一分钟)完成多步骤任务。 |
| deepseek-r1t-chimera | DeepSeek-R1T-Chimera 由 DeepSeek-R1 和 DeepSeek-V3(0324)合并创建,结合了 R1 的推理能力与 V3 在令牌效率方面的改进。它基于 DeepSeek-MoE Transformer 架构,优化用于通用文本生成任务。 该模型融合了两个源模型的预训练权重,以平衡推理能力、效率和指令遵循任务的性能。它采用 MIT 许可证发布,适用于研究和商业用途。 |
| qwen3-235b-a22b | Qwen3-235B-A22B 是由 Qwen 开发的一个 235B 参数的专家混合模型(MoE),在每次前向传播中激活 22B 参数。它支持在“思考”模式(用于复杂推理、数学和编码任务)和“非思考”模式(用于一般对话效率)之间无缝切换。该模型展现出强大的推理能力,支持多语言(100 多种语言和方言),具有先进的指令遵循和代理工具调用能力。它原生支持 32K 令牌的上下文窗口,并通过 YaRN 扩展技术扩展至 131K 令牌。 |
| gpt-4.1-mini | GPT-4.1 Mini 是一款中等规模的模型,其性能与 GPT-4o 相媲美,但延迟和成本却显著降低。它保留了 100 万个 token 上下文窗口,在硬指令评估中得分为 45.1%,在 MultiChallenge 中得分为 35.8%,在 IFEval 中得分为 84.1%。Mini 还展现出强大的编码能力(例如,在 Aider 的多语言 diff 基准测试中得分为 31.6%)和视觉理解能力,使其非常适合性能受限的交互式应用。 |
| claude-3.7-sonnet | Claude 3.7 Sonnet 是一个先进的大型语言模型,其推理、编码和问题解决能力均有所提升。它引入了一种混合推理方法,允许用户在快速响应和扩展的逐步处理复杂任务之间进行选择。该模型在编码方面表现出显著的改进,尤其是在前端开发和全栈更新方面,并且在代理工作流方面表现出色,可以自主导航多步骤流程。 Claude 3.7 Sonnet 在标准模式下保持与其前代产品相同的性能,同时提供扩展推理模式,以提高数学、编码和指令跟踪任务的准确性。 |
| llama-4-maverick | Llama 4 Maverick 17B Instruct(128E)是 Meta 推出的高容量多模态语言模型,采用混合专家(MoE)架构,拥有 128 个专家,每次前向传播有 170 亿个活跃参数(总计 4000 亿)。它支持多语言文本和图像输入,并在 12 种支持的语言中生成多语言文本 和代码输出。Maverick 专为视觉-语言任务优化,经过指令调优,具备助手式行为、图像推理和通用多模态交互能力。 Maverick 具有早期融合的原生多模态能力和 100 万令牌的上下文窗口。它在经过精心筛选的公共、授权和 Meta 平台数据上训练,涵盖约 22 万亿个令牌,知识截止到 2024 年 8 月。于 2025 年 4 月 5 日发布,采用 Llama 4 社区许可证,适用于需要先进多模态理解和高模型吞吐量的研究和商业应用。 |
| deepseek-r1 | deepseek |
| deepseek-v3 | deepseek最新的对话模型,已经同步到0324版本 |
| qwen3-30b-a3b | Qwen3 是 Qwen 大型语言模型系列的最新一代,采用密集和专家混合(MoE)架构,在推理、多语言支持和高级代理任务方面表现出色。其独特的能力在复杂推理时无缝切换思考模式,在高效对话时切换非思考模式,确保多功能、高质量的性能。 显著优于之前的模型如 QwQ 和 Qwen2.5,Qwen3 在数学、编码、常识推理、创造性写作和交互对话能力方面表现出色。Qwen3-30B-A3B 版本包括 305 亿参数(33 亿激活),48 层,128 个专家(每个任务激活 8 个),并支持高达 131K 令牌的上下文,采用 YaRN,树立了开源模型的新标准。 |
| qwen3-32b | Qwen3-32B 是来自 Qwen3 系列的密集型 32.8 亿参数因果语言模型,优化用于复杂推理和高效对话。它支持在“思考”模式(用于数学、编码和逻辑推理等任务)和“非思考”模式(用于更快的通用对话)之间无缝切换。该模型在指令执行、代理工具使用、创意写作和多语言任务(涵盖 100 多种语言和方言)方面表现出色。它原生支持 32K 令牌上下文,并可使用 YaRN 扩展到 131K 令牌。 |
| gpt-4o-image | GPT-4o生图模型 |
| gpt-4o-image-vip | GPT-4o生图模型,贵一点但稳定,如果gpt-4o-image失败,可以用这个 |
| o3-mini | 该模型支持 reasoning_effort 参数,可设置为“high”、“medium”或“low”来控制模型的思考时间。默认值为“medium”。该模型具有三个可调节的推理力度级别,并支持关键开发人员功能,包括函数调用、结构化输出和流媒体,但不包括视觉处理功能。 该模型较其前代产品有显著改进,专业测试人员对其答案的满意度高达 56%,复杂问题上的重大错误率也降低了 39%。在中等推理工作量设置下,o3-mini 在 AIME 和 GPQA 等高难度推理评估中的表现堪比规模更大的 o1 模型,同时保持了更低的延迟和成本。 |
| gpt-4o-mini | 4o mini 是 OpenAI 最新的模型,继 GPT-4 Omni 之后,支持文本和图像输入,输出文本。作为他们最先进的小型模型,它比其他最新的前沿模型多倍更实惠,比 GPT-3.5 Turbo 便宜超过 60%。它保持了最先进的智能水平,同时具有显著更高的性价比。 4o mini 在 MMLU 上获得了 82%的分数,目前在聊天偏好常用排行榜上排名高于 GPT-4。 |
| valkyrie-49b-v1 | 创意写作 |