硅基流动升级DeepSeek-R1 等推理模型API ，支持 128K 上下文长度

AIbase基地

AI技术专栏作家 | 发布了 246 篇文章

硅基流动（SiliconCloud）宣布对其 DeepSeek-R1等推理模型 API 进行了一次重要升级，旨在更好地满足开发者对长上下文和灵活参数配置的需求。此次升级中，多个推理模型的最大上下文长度被提升至128K，使得模型在思考时能够更加充分，输出内容也更为完整。

在此次升级中，多个知名模型，如 Qwen3、QWQ、GLM-Z1等，均支持128K 的最大上下文长度，而 DeepSeek-R1则支持96K。这一提升为复杂推理任务，如代码生成和智能体的应用提供了强有力的支持。

更为重要的是，硅基流动还引入了独立控制 “思维链” 和 “回复内容” 长度的功能。通过这种方式，开发者能够更加高效地利用模型的推理能力。最大回复长度（max_tokens）现在仅用于限制模型最终输出给用户的内容，而思维链长度(thinking_budget)则专门用来控制模型在思考阶段的 Token 使用量。这样的设计使得开发者能够根据实际任务的复杂程度，灵活调整模型的思考深度和输出长度。

以 SiliconCloud 平台的 Qwen3-14B 为例，用户可以通过设置 thinking_budget 和 max_tokens 来分别控制模型的最大思维链长度和最大回复长度。在推理过程中，若思考阶段生成的 Token 数达到 thinking_budget，Qwen3系列推理模型会强制停止思维链推理。而对于其他推理模型，则可能会继续输出思考内容。