Бюджеты на размышление через скобки в названии модели

Добавьте (value) к названию модели, чтобы управлять бюджетом на размышление или уровнем усилий при рассуждении. Прокси удаляет скобки перед маршрутизацией и применяет полученные настройки к запросу.

Допустимые значения

(number): явный бюджет на размышление (токены провайдера); ограничивается поддерживаемым диапазоном модели.
(level): предустановленный уровень усилий при рассуждении (нечувствителен к регистру):

Уровень	Примерный бюджет	Цель
`minimal`	512	Рассуждение с минимальной стоимостью
`low`	1024	Быстрое рассуждение
`medium`	8192	Глубина рассуждения по умолчанию
`high`	24576	Глубокое рассуждение
`xhigh`	32768	Сверхглубокие рассуждения
`auto`	Динамически (-1, если разрешено, иначе mid/min)	Позволить провайдеру выбрать
`none`	0 (ограничено до min, если ноль запрещен)	Отключить рассуждения

Пустые () игнорируются. Для форм provider://model помещайте скобки после модели (например, openrouter://gemini-3-pro-preview(high)).

Как это применяется

Только модели, заявляющие о поддержке рассуждений, сохраняют эти настройки; неподдерживаемые модели просто отбрасывают суффикс без вставки полей рассуждений.
Gemini: записывает generationConfig.thinkingConfig.thinkingBudget после ограничения. include_thoughts остается без изменений. Модели с рассуждениями по умолчанию (например, gemini-3-pro-preview) по-прежнему автоматически включают рассуждения, если они отсутствуют; бюджет в скобках переопределяет значение по умолчанию.
Claude API: когда указан бюджет/уровень, устанавливает thinking.type=enabled с нормализованным thinking.budget_tokens и увеличивает max_tokens, если необходимо.
OpenAI/Codex/OpenRouter: уровни рассуждения/auto/none перезаписывают reasoning_effort (чат) или reasoning.effort (Responses). Числовые бюджеты не изменяют reasoning_effort для этих протоколов.
Модели на основе уровней применяют поддерживаемые ими уровни усилий; неподдерживаемые значения возвращают HTTP 400.

Примеры

Динамический бюджет с Gemini:

bash

curl -X POST http://localhost:8317/v1/chat/completions \
  -H "Authorization: Bearer <token>" \
  -H "Content-Type: application/json" \
  -d '{
        "model": "gemini-3-pro-preview(auto)",
        "messages": [{ "role": "user", "content": "Summarize the key points" }]
      }'
# Нормализует до gemini-3-pro-preview и устанавливает thinkingBudget=-1 (ограничивается, если динамический режим не разрешен); include_thoughts остается без изменений.

Высокий уровень усилий рассуждения для Responses:

bash

curl -X POST http://localhost:8317/v1/responses \
  -H "Authorization: Bearer <token>" \
  -H "Content-Type: application/json" \
  -d '{
        "model": "gpt-5.1(high)",
        "input": "List three improvements"
      }'
# Маршрутизирует как gpt-5.1 и перезаписывает reasoning.effort="high".

Отключить thinking (ограничивается минимальным значением, если ноль не допускается):

bash

model=claude-sonnet-4.5(none)
# Устанавливает thinking.budget_tokens в 0, если это разрешено; в противном случае ограничивает минимальным значением модели.

Бюджеты на размышление через скобки в названии модели ​

Допустимые значения ​

Как это применяется ​

Примеры ​

Бюджеты на размышление через скобки в названии модели

Допустимые значения

Как это применяется

Примеры