Бюджеты на размышление через скобки в названии модели
Добавьте (value) к названию модели, чтобы управлять бюджетом на размышление или уровнем усилий при рассуждении. Прокси удаляет скобки перед маршрутизацией и применяет полученные настройки к запросу.
Допустимые значения
(number): явный бюджет на размышление (токены провайдера); ограничивается поддерживаемым диапазоном модели.(level): предустановленный уровень усилий при рассуждении (нечувствителен к регистру):
| Уровень | Примерный бюджет | Цель |
|---|---|---|
minimal | 512 | Рассуждение с минимальной стоимостью |
low | 1024 | Быстрое рассуждение |
medium | 8192 | Глубина рассуждения по умолчанию |
high | 24576 | Глубокое рассуждение |
xhigh | 32768 | Сверхглубокие рассуждения |
auto | Динамически (-1, если разрешено, иначе mid/min) | Позволить провайдеру выбрать |
none | 0 (ограничено до min, если ноль запрещен) | Отключить рассуждения |
- Пустые
()игнорируются. Для формprovider://modelпомещайте скобки после модели (например,openrouter://gemini-3-pro-preview(high)).
Как это применяется
- Только модели, заявляющие о поддержке рассуждений, сохраняют эти настройки; неподдерживаемые модели просто отбрасывают суффикс без вставки полей рассуждений.
- Gemini (standard и CLI): записывает
generationConfig.thinkingConfig.thinkingBudget(илиrequest.generationConfig.thinkingConfig...для CLI) после ограничения.include_thoughtsостается без изменений. Модели с рассуждениями по умолчанию (например,gemini-3-pro-preview) по-прежнему автоматически включают рассуждения, если они отсутствуют; бюджет в скобках переопределяет значение по умолчанию. - Claude API: когда указан бюджет/уровень, устанавливает
thinking.type=enabledс нормализованнымthinking.budget_tokensи увеличиваетmax_tokens, если необходимо. - OpenAI/Codex/Qwen/iFlow/OpenRouter: уровни рассуждения/
auto/noneперезаписываютreasoning_effort(чат) илиreasoning.effort(Responses). Числовые бюджеты не изменяютreasoning_effortдля этих протоколов. - Модели на основе уровней применяют поддерживаемые ими уровни усилий; неподдерживаемые значения возвращают HTTP 400.
Примеры
- Динамический бюджет с Gemini:
bash
curl -X POST http://localhost:8317/v1/chat/completions \
-H "Authorization: Bearer <token>" \
-H "Content-Type: application/json" \
-d '{
"model": "gemini-3-pro-preview(auto)",
"messages": [{ "role": "user", "content": "Summarize the key points" }]
}'
# Нормализует до gemini-3-pro-preview и устанавливает thinkingBudget=-1 (ограничивается, если динамический режим не разрешен); include_thoughts остается без изменений.- Высокий уровень усилий рассуждения для Responses:
bash
curl -X POST http://localhost:8317/v1/responses \
-H "Authorization: Bearer <token>" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-5.1(high)",
"input": "List three improvements"
}'
# Маршрутизирует как gpt-5.1 и перезаписывает reasoning.effort="high".- Отключить thinking (ограничивается минимальным значением, если ноль не допускается):
bash
model=claude-sonnet-4.5(none)
# Устанавливает thinking.budget_tokens в 0, если это разрешено; в противном случае ограничивает минимальным значением модели.