Qwen3 系列模型在请求时启用非思考模式


本文总阅读量

Qwen3 系列模型有个亮点是同时支持思考模式和非思考模式,思考模式的情况下,LLM 会逐步推理,深思熟虑后给出答案;而非思考模式下,LLM 能提供快速即时的响应。

我们可以在部署的时候就通过参数指定需要用到哪种模式,但这样未免有点不太灵活。所以 Qwen3 还提供了一种软切换机制[1],在服务端部署思考模式的情况下,用户可以通过在 User Prompt 或 System Prompt 中添加  /think  和  /no_think  来逐轮切换模型的思考模式。[2][3]

下面给出使用 openai 库的实现:

stream = client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": "以下为十六进制数与十进制数参杂的表达式,计算一下它的结果:0x293 + 5593 - 0x1852"
            + "/no_think",
        },
        # 强制让模型不输出reasoning_content
        {
            "role": "assistant",
            "content": "<think>\n\n</think>\n",
        },
    ],
    model="Qwen/Qwen3-32B",
    stream=True,
)

  1. Qwen3:思深,行速 | Qwen ↩︎

  2. 热乎:Qwen3 使用 vllm 如何取消 thinking 模式 - 知乎 ↩︎

  3. How to turn-off "enable_thinking" using "request" in qwen3? 如何在 qwen3 使用 request 调用 API 时禁用思考模型? · QwenLM/Qwen3 · Discussion #1343 ↩︎


本站总访问量