Skip to content

Бюджеты на размышление через скобки в названии модели

Добавьте (value) к названию модели, чтобы управлять бюджетом на размышление или уровнем усилий при рассуждении. Прокси удаляет скобки перед маршрутизацией и применяет полученные настройки к запросу.

Допустимые значения

  • (number): явный бюджет на размышление (токены провайдера); ограничивается поддерживаемым диапазоном модели.
  • (level): предустановленный уровень усилий при рассуждении (нечувствителен к регистру):
УровеньПримерный бюджетЦель
minimal512Рассуждение с минимальной стоимостью
low1024Быстрое рассуждение
medium8192Глубина рассуждения по умолчанию
high24576Глубокое рассуждение
xhigh32768Сверхглубокие рассуждения
autoДинамически (-1, если разрешено, иначе mid/min)Позволить провайдеру выбрать
none0 (ограничено до min, если ноль запрещен)Отключить рассуждения
  • Пустые () игнорируются. Для форм provider://model помещайте скобки после модели (например, openrouter://gemini-3-pro-preview(high)).

Как это применяется

  • Только модели, заявляющие о поддержке рассуждений, сохраняют эти настройки; неподдерживаемые модели просто отбрасывают суффикс без вставки полей рассуждений.
  • Gemini (standard и CLI): записывает generationConfig.thinkingConfig.thinkingBudget (или request.generationConfig.thinkingConfig... для CLI) после ограничения. include_thoughts остается без изменений. Модели с рассуждениями по умолчанию (например, gemini-3-pro-preview) по-прежнему автоматически включают рассуждения, если они отсутствуют; бюджет в скобках переопределяет значение по умолчанию.
  • Claude API: когда указан бюджет/уровень, устанавливает thinking.type=enabled с нормализованным thinking.budget_tokens и увеличивает max_tokens, если необходимо.
  • OpenAI/Codex/Qwen/iFlow/OpenRouter: уровни рассуждения/auto/none перезаписывают reasoning_effort (чат) или reasoning.effort (Responses). Числовые бюджеты не изменяют reasoning_effort для этих протоколов.
  • Модели на основе уровней применяют поддерживаемые ими уровни усилий; неподдерживаемые значения возвращают HTTP 400.

Примеры

  • Динамический бюджет с Gemini:
bash
curl -X POST http://localhost:8317/v1/chat/completions \
  -H "Authorization: Bearer <token>" \
  -H "Content-Type: application/json" \
  -d '{
        "model": "gemini-3-pro-preview(auto)",
        "messages": [{ "role": "user", "content": "Summarize the key points" }]
      }'
# Нормализует до gemini-3-pro-preview и устанавливает thinkingBudget=-1 (ограничивается, если динамический режим не разрешен); include_thoughts остается без изменений.
  • Высокий уровень усилий рассуждения для Responses:
bash
curl -X POST http://localhost:8317/v1/responses \
  -H "Authorization: Bearer <token>" \
  -H "Content-Type: application/json" \
  -d '{
        "model": "gpt-5.1(high)",
        "input": "List three improvements"
      }'
# Маршрутизирует как gpt-5.1 и перезаписывает reasoning.effort="high".
  • Отключить thinking (ограничивается минимальным значением, если ноль не допускается):
bash
model=claude-sonnet-4.5(none)
# Устанавливает thinking.budget_tokens в 0, если это разрешено; в противном случае ограничивает минимальным значением модели.

Лицензия MIT.