Google Gemini 3 Flash стал умнее: ИИ теперь может "думать" об изображениях

Google только что обновила свой ИИ Gemini 3 Flash. Новая функция Agentic Vision позволяет модели активно рассуждать об изображениях, а не просто описывать их. Она даже может запускать код на Python для обработки визуальных данных, делая результаты более точными и полезными для реальных задач.

Источник изображения: TestingCatalog

ИИ, который действительно думает о том, что видит

От статичных описаний к умным рассуждениям

Прошли времена, когда ИИ просто давал метку изображению и на этом останавливался. С Agentic Vision Gemini 3 Flash использует пошаговый подход: увеличивает, аннотирует, обрезает и анализирует изображение перед выдачей ответа. Это как будто устройству дали мозг для перепроверки того, что оно видит.

Визуальный интеллект на базе кода

Фишка в том, что Gemini 3 Flash может выполнять код Python на лету. Он может рисовать рамки, выделять детали, обрабатывать табличные данные и даже создавать графики по изображениям. Это делает результаты более достоверными, снижает количество догадок и повышает точность на 5–10% в задачах, связанных с обработкой изображений.

Лёгкий доступ для разработчиков и приложений

Источник изображения: TestingCatalog

Использование в инструментах Google

Agentic Vision уже доступен через Gemini API в Google AI Studio и Vertex AI, и скоро появится в приложении Gemini. Разработчики могут интегрировать его в приложения, чтобы предоставлять более интеллектуальные функции, основанные на изображениях, и улучшенные визуальные возможности.

Почему это важно для приложений и ASO

Для разработчиков и маркетологов приложений более умный ИИ означает лучшее распознавание изображений, автоматическую разметку фото и визуальную аналитику. Это помогает выделяться среди конкурентов в магазинах приложений, увеличивать вовлечённость и улучшать ключевые метрики ASO.

Взгляд в будущее

Больше инструментов, умнее ИИ

Google планирует расширить Agentic Vision на большее количество моделей и добавить функции, такие как автоматическая настройка изображений и привязка к результатам веб-поиска. Будущее — это ИИ, который не только видит, но и разумно действует на основе визуальной информации.

Agentic Vision демонстрирует, как ИИ переходит от статичных ответов к интерактивному мышлению. Приложения, использующие эту технологию, могут предложить уникальные функции — от поиска по изображениям до улучшенной аналитики, что даст им конкурентное преимущество на рынке.