Qwen3 系列模型在请求时启用非思考模式
本文总阅读量次
Qwen3 系列模型有个亮点是同时支持思考模式和非思考模式,思考模式的情况下,LLM 会逐步推理,深思熟虑后给出答案;而非思考模式下,LLM 能提供快速即时的响应。
我们可以在部署的时候就通过参数指定需要用到哪种模式,但这样未免有点不太灵活。所以 Qwen3 还提供了一种软切换机制[1],在服务端部署思考模式的情况下,用户可以通过在 User Prompt 或 System Prompt 中添加 /think 和 /no_think 来逐轮切换模型的思考模式。[2][3]
下面给出使用 openai 库的实现:
stream = client.chat.completions.create(
messages=[
{
"role": "user",
"content": "以下为十六进制数与十进制数参杂的表达式,计算一下它的结果:0x293 + 5593 - 0x1852"
+ "/no_think",
},
# 强制让模型不输出reasoning_content
{
"role": "assistant",
"content": "<think>\n\n</think>\n",
},
],
model="Qwen/Qwen3-32B",
stream=True,
)