Qwen3 系列模型在请求时启用非思考模式

#LLM

本文总阅读量次

Qwen3 系列模型有个亮点是同时支持思考模式和非思考模式，思考模式的情况下，LLM 会逐步推理，深思熟虑后给出答案；而非思考模式下，LLM 能提供快速即时的响应。

我们可以在部署的时候就通过参数指定需要用到哪种模式，但这样未免有点不太灵活。所以 Qwen3 还提供了一种软切换机制^[1]，在服务端部署思考模式的情况下，用户可以通过在 User Prompt 或 System Prompt 中添加 /think 和 /no_think 来逐轮切换模型的思考模式。^[2]^[3]

下面给出使用 openai 库的实现：

stream = client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": "以下为十六进制数与十进制数参杂的表达式，计算一下它的结果：0x293 + 5593 - 0x1852"
            + "/no_think",
        },
        # 强制让模型不输出reasoning_content
        {
            "role": "assistant",
            "content": "<think>\n\n</think>\n",
        },
    ],
    model="Qwen/Qwen3-32B",
    stream=True,
)