ᐈ Google представила открытую ИИ-модель Gemma 4 с поддержкой автономных агентов

Google в четверг анонсировала новую модель искусственного интеллекта Gemma 4. Первый представитель семейства Gemma 4 получил ряд существенных улучшений по сравнению с предшественниками. Если Gemma 3 делала акцент на текстовых и визуальных задачах, то новая итерация, по словам компании, привносит в опенсорс-модель агентные возможности и улучшенные механизмы рассуждения. Новая большая языковая модель (LLM) доступна в четырёх вариантах, распространяется через платформы Google для разработчиков и может быть загружена через сторонние репозитории для локального запуска.

В официальном блоге компания подробно рассказала о модели Gemma 4. Она доступна в четырёх конфигурациях: Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts (MoE) и 31B Dense. Контекстное окно расширено до 256 тысяч токенов — вдвое больше, чем у Gemma 3 с её 128 тысячами. Кроме того, модель нативно обучена на более чем 140 языках.

Ключевое изменение по сравнению с предыдущим поколением — переход на лицензию Apache 2.0, допускающую как академическое, так и коммерческое использование. Модель доступна напрямую через Google AI Studio и Vertex AI, а также для скачивания через Hugging Face, Kaggle и Ollama.

Три главных нововведения Gemma 4 — продвинутые механизмы рассуждения, поддержка агентных сценариев и генерация кода. Улучшенное рассуждение подразумевает многоэтапное планирование и глубокую логику; заявлены улучшения в области математики и следования инструкциям. Модель также поддерживает вызов функций и структурированный вывод в формате JSON, что позволяет использовать её в качестве основы для ИИ-агентов.

Помимо этого, Google утверждает, что модель способна генерировать качественный код для офлайн-использования, хотя её позиции по сравнению с проприетарными инструментами — такими как Claude Code и Codex — пока неочевидны. Очевидное преимущество здесь — бесплатное использование, а также приватность и безопасность при локальной обработке данных.

Среди других заметных возможностей — нативная обработка видео и изображений с поддержкой произвольных разрешений. Google заявляет о поддержке визуальных задач, включая распознавание текста (OCR) и работу с диаграммами. Модели E2B и E4B также поддерживают нативный аудиовход для распознавания и понимания речи.

Первоисточник: Akash Dutta