Google только что обновила свой ИИ Gemini 3 Flash. Новая функция Agentic Vision позволяет модели активно рассуждать об изображениях, а не просто описывать их. Она даже может запускать код на Python для обработки визуальных данных, делая результаты более точными и полезными для реальных задач.

Источник изображения: TestingCatalog
ИИ, который действительно думает о том, что видит
От статичных описаний к умным рассуждениям
Прошли времена, когда ИИ просто давал метку изображению и на этом останавливался. С Agentic Vision Gemini 3 Flash использует пошаговый подход: увеличивает, аннотирует, обрезает и анализирует изображение перед выдачей ответа. Это как будто устройству дали мозг для перепроверки того, что оно видит.
Визуальный интеллект на базе кода
Фишка в том, что Gemini 3 Flash может выполнять код Python на лету. Он может рисовать рамки, выделять детали, обрабатывать табличные данные и даже создавать графики по изображениям. Это делает результаты более достоверными, снижает количество догадок и повышает точность на 5–10% в задачах, связанных с обработкой изображений.
Лёгкий доступ для разработчиков и приложений

Источник изображения: TestingCatalog
Использование в инструментах Google
Agentic Vision уже доступен через Gemini API в Google AI Studio и Vertex AI, и скоро появится в приложении Gemini. Разработчики могут интегрировать его в приложения, чтобы предоставлять более интеллектуальные функции, основанные на изображениях, и улучшенные визуальные возможности.
Почему это важно для приложений и ASO
Для разработчиков и маркетологов приложений более умный ИИ означает лучшее распознавание изображений, автоматическую разметку фото и визуальную аналитику. Это помогает выделяться среди конкурентов в магазинах приложений, увеличивать вовлечённость и улучшать ключевые метрики ASO.
Взгляд в будущее
Больше инструментов, умнее ИИ
Google планирует расширить Agentic Vision на большее количество моделей и добавить функции, такие как автоматическая настройка изображений и привязка к результатам веб-поиска. Будущее — это ИИ, который не только видит, но и разумно действует на основе визуальной информации.
Комментарии
Agentic Vision демонстрирует, как ИИ переходит от статичных ответов к интерактивному мышлению. Приложения, использующие эту технологию, могут предложить уникальные функции — от поиска по изображениям до улучшенной аналитики, что даст им конкурентное преимущество на рынке.




