Google официально представила несколько продуктов и функций с использованием искусственного интеллекта в рамках своего мероприятия Google I/O 2024. Эта инновационная технология призвана изменить наш способ работы и взаимодействия с ИИ на различных платформах.
Обзор
Google I/O 2024 стал поворотным моментом в эволюции технологии ИИ, когда Сундар Пичаи представил видение будущего Google.
Мероприятие показало трансформационный потенциал Gemini, мультимодельной ИИ-модели Google, на различных платформах.
От трансформации поисковых запросов с использованием ИИ Описаний и ИИ Фотографий до повышения продуктивности в Google Workspace с помощью интеллектуальных кратких содержаний электронной почты, Google показал, как ИИ переформатирует взаимодействие пользователей.
(Источник: Google)
Более того, введение ИИ-агентов намекнуло на будущее, где ИИ может помогать пользователям в повседневных задачах, от покупок до переезда.
В дополнение к инновациям, Google подчеркнула свое обязательство к ответственному использованию ИИ, представив меры, такие как ИИ-ассистированное красное командирование и расширенный SynthID, чтобы обеспечить этичное использование технологии ИИ.
Google I/O 2024 подчеркнул не только технологические достижения, но и совместные усилия разработчиков и пользователей в формировании более полезной и ответственной экосистемы ИИ.
Google Gemini
Семейство моделей Gemini от Google представляет несколько обновлений:
1. Gemini 1.5 Flash: Эта легкая модель оптимизирована для скорости и эффективности, обладает возможностями мультимодального рассуждения и расширенным окном контекста. Она отлично справляется с суммированием, чат-приложениями и извлечением данных из длинных документов.
2. Gemini 1.5 Pro: Значительно улучшенная с расширенным логическим рассуждением, многоходовым разговором и пониманием аудио и изображений. Теперь поддерживается окно контекста в 2 миллиона токенов, что позволяет выполнять более сложные задачи.
3. Gemini Nano: Расширяясь за пределы только текстовых вводов, Nano теперь включает изображения, обеспечивая лучшее понимание мира через зрение, слух и разговорный язык.
4. Следующее поколение открытых моделей (Gemma 2): Gemma 2 разработана для ответственного инновационного использования ИИ, обладает прорывной производительностью и эффективностью. Она также представляет PaliGemma, первую модель видео-языка, вдохновленную PaLI-3.
5. Прогресс в области ИИ-помощников (Проект Астра): Проект Астра направлен на разработку проактивных и персональных ИИ-помощников, способных понимать и реагировать на сложные и динамические ситуации. Используя преимущества Gemini, эти помощники могут обрабатывать информацию быстрее и отвечать более разговорным образом.
Эти обновления представляют собой значительные достижения в области технологии ИИ, расширяя границы того, что могут достичь модели ИИ.
Google Фото: Поиск Фотографий с помощью Gemini
(Источник: Google)
Поиск Фотографий - новая экспериментальная функция в Google Фото, основанная на модели ИИ Gemini.
Она упрощает поиск конкретных фотографий или информации, позволяя пользователям задавать вопросы естественным языком, например: "Покажите мне лучшую фотографию из каждого национального парка, которые я посетил(а)".
Используя продвинутые мультимодальные возможности, Поиск Фотографий анализирует содержание фотографий, чтобы дать интеллектуальные ответы, даже распознавая детали, такие как темы на днях рождения.
С акцентом на конфиденциальность, Google обеспечивает защиту личных данных и не использует их для рекламы, делая Поиск Фотографий удобным и безопасным инструментом для управления коллекциями фотографий.
Генеративный ИИ в Поиске
Google Поиск претерпел значительную эволюцию с появлением генеративного ИИ, позволяющего пользователям легко ориентироваться в информации.
С настраиваемой моделью Gemini теперь Поиск предлагает ИИ-Обзоры, которые предоставляют краткие сведения по темам, сопровождаемые соответствующими ссылками для дальнейшего изучения.
Эти ИИ-Обзоры разработаны для экономии времени и увеличения удовлетворенности пользователя, как это показано в миллиардах успешных использований в экспериментах Лабораторий Поиска.
С начала этой недели ИИ-Обзоры будут доступны пользователям в США, с планами на глобальное распространение к концу года.
Теперь пользователи могут регулировать уровень детализации в обзорах и задавать сложные вопросы в одном поиске, увеличивая доступность и эффективность.
Например, пользователи могут задавать детализированные запросы, такие как поиск лучших студий йоги в Бостоне с предложениями для новичков и временем ходьбы от Бикон Хилл.
Поиск также помогает в планировании активностей, таких как еда и отпуск, и в скором времени предложит страницы результатов, организованные с помощью ИИ для более легкого изучения.
Продвинутые возможности понимания видео позволяют проводить поиск с помощью видео, делая поиск проблем и сбор информации более наглядными. Эти инновации делают Google Поиск более умным и интуитивным.
>>> Google расширяет результаты поиска с помощью ИИ для пользователей без активации
VideoFX, ImageFX и MusicFX
Google также представил VideoFX, а также новые функции для ImageFX и MusicFX
>>> Обзор: Google расширяет пакет ИИ с ImageFX и MusicFX в Лабораториях
VideoFX - последний эксперимент от labs.google, революционизирующий создание видео с помощью своей передовой генеративной видеомодели Veo. С помощью простого текстового запроса пользователи могут превратить идеи в захватывающие видеоролики с кинематографическими эффектами и музыкальным сопровождением.
ImageFX теперь предлагает расширенные инструменты редактирования, позволяя пользователям легко манипулировать определенными элементами на своих изображениях.
Дополнительно, Imagen 3, последняя модель генерации изображений, улучшает фотореализм и рендеринг текста.
MusicFX вводит DJ-режим, позволяя пользователям легко смешивать ритмы и жанры, создавая динамичные музыкальные истории.
Эти обновления отражают приверженность Google к продвижению ответственного генеративного ИИ, позволяя пользователям выражать свою креативность аутентично.
Новые Модели и Инструменты Генеративных Медиа
Генератор Видео: Veo
Veo - это последнее достижение Google в области создания видео. Он создает потрясающие видеоролики с разрешением 1080p с точным пониманием языка и визуальных эффектов, предлагая непревзойденный контроль над творчеством.
С функциями, такими как многоэтапное рассуждение, Veo создает связное и реалистичное видео, продемонстрированное через сотрудничество с режиссером Дональдом Гловером.
Генератор Изображений: Imagen 3
Imagen 3 генерирует реалистичные изображения с невероятной детализацией и реализмом.
Он понимает естественный язык и включает небольшие детали для улучшения изображений. Imagen 3 идеально подходит для персонализированных сообщений и презентаций, теперь доступен в ImageFX для выбранных создателей.
Модель Обучения: LearnLM
(Источник: Google)
LearnLM, новая семья моделей Google для обучения, использует генеративный ИИ для улучшения образовательного опыта.
Основываясь на научных исследованиях в области образования, LearnLM стремится сделать обучение более увлекательным, персональным и полезным. Он включает принципы, такие как стимулирование активного обучения, управление когнитивной нагрузкой и адаптацию к потребностям учащегося.
>>> Кейс-стади по Образовательному Приложению
Google интегрирует LearnLM в существующие продукты, такие как Поиск, YouTube и Gemini, что позволяет более интерактивные и персонализированные обучающие опыты.
Дополнительно Google тестирует новые инструменты, такие как Illuminate, который разбирает научные статьи на аудио-беседы, и Learn About, платформу для самопроизвольного обучения через различные медиа.
Через партнерство с педагогами и образовательными учреждениями, Google работает над максимизацией преимуществ ИИ в образовании, учитывая потенциальные риски.
Инструменты для Разработки ИИ
Google предлагает открытую экосистему инструментов для разработки ИИ:
-
Keras: Используйте Keras для запуска рабочих процессов поверх TensorFlow, PyTorch или JAX.
-
LoRA с Keras на Colab: Легко настраивайте модели.
-
OpenXLA: Ускорьте скорость обучения.
-
RAPIDS cuDF: Ускорьте рабочие нагрузки в Colab.
1. Разработка мобильных приложений
Google сосредотачивается на создании AI-усиленных возможностей для Android:
> Gemini в Android Studio: Создан для упрощения создания качественных приложений для Android быстрее.
> Gemini Nano & AICore: Выполняйте эффективные модели непосредственно на мобильных устройствах пользователей, обеспечивая быстрый отклик и улучшенную конфиденциальность данных.
> Kotlin Multiplatform (KMP) на Android: Разработчики могут повысить производительность, делясь бизнес-логикой приложения между платформами с поддержкой KMP на Android.
> Jetpack Compose: Jetpack Compose предлагает инструменты для создания потрясающих, адаптивных пользовательских интерфейсов для Android.
Рекомендуемая литература:
>>> Google I/O 2024: Основные сведения о разработчиках приложений и игр в Google Play
2. Веб-разработка
Google предлагает инструменты для улучшения веб-разработки:
> Gemini Nano в Chrome: Интеграция AI на устройствах с помощью WebGPU, WebAssembly и интеграция Gemini Nano в рабочий стол Chrome.
> API Правил спекуляции: Позволяет предварительную подгрузку и предварительное рендеринг страниц для более быстрого и плавного просмотра.
> API переходов для многостраничных сайтов: Обеспечивает плавные, жидкие навигационные возможности по разнообразным архитектурам сайтов.
> Инструменты консоли Chrome DevTools: Google вводит AI-приводимые инсайты в консоль Chrome DevTools для упрощения процесса отладки.
3. Полностековая, многофункциональная разработка
Google предоставляет инструменты для создания, тестирования и развертывания приложений с полным стеком и поддержкой AI:
> Обновления Flutter и Dart: Flutter и Dart получают обновления для повышения производительности и поддержки.
> Развивающийся Firebase для современных, AI-усиленных приложений: Firebase теперь поддерживает подключение к базе данных PostgreSQL, упрощенные развертывания из GitHub и AI-функции с моделями Gemma.
> Checks: AI-усиленная платформа проверки соответствия Google упрощает процессы конфиденциальности и соответствия приложений.
API Gemini & Конкурс Разработчиков
Конкурс разработчиков API Gemini предоставляет разработчикам всех уровней возможность повлиять на будущее ИИ.
Интегрируя API Gemini в свои приложения, разработчики могут решать реальные задачи и вносить свой вклад в лучшее будущее.
С функциями, такими как настройка, инструкции системы и режим JSON, API Gemini в Google AI Studio облегчает прототипирование и создание с мощными моделями Gemini.
"Разработчики могут перейти по ai.google.dev/competition для получения дополнительной информации о призах, категориях, ресурсах и официальных правилах.
Конкурс продлится до 12 августа 2024 года. После его завершения вы сможете проголосовать за свое любимое приложение, чтобы оно выиграло награду "Выбор зрителей"!"
Безопасность ИИ и Избежание Неправильного Использования
AI-помогаемое Красное Тимирование и Экспертная Обратная Связь
Google объединяет передовые исследования с человеческими знаниями для улучшения своих моделей, таких как Gemini. Они представляют "AI-помогаемое Красное Тимирование", метод, вдохновленный достижениями DeepMind в игровой сфере Google.
Это включает в себя обучение AI-агентов на конкурентных принципах для расширения возможностей Красного Тимирования.
Путем решения проблемы адверсарного подталкивания и ограничения проблемных результатов Google стремится улучшить точность и надежность своих моделей.
Также обратная связь от внутренних специалистов по безопасности и независимых экспертов интегрируется для дальнейшего улучшения производительности модели.
Водяные Знаки ИИ для Текста и Видео: SynthID
(Кредит: Google)
Поскольку результаты моделей становятся более реалистичными, Google представляет SynthID, технологию, которая добавляет незаметные водяные знаки к созданным ИИ изображениям и аудио для облегчения идентификации и защиты от неправильного использования.
В этом году Google расширяет SynthID, чтобы включить водяные знаки для текста и видео, в рамках своих широких инвестиций в помощь пользователям в понимании происхождения цифрового контента.
Сотрудничество в Области Защиты
Google обязуется сотрудничать с экосистемой для обеспечения ответственного использования ИИ. В ближайшие месяцы они планируют открыть исходный код текстовой водяной метки SynthID через обновленный Набор Инструментов Ответственного Генеративного ИИ.
Кроме того, Google является участником Коалиции за Происхождение и Аутентичность Контента (C2PA), сотрудничая с Adobe, Microsoft, стартапами и другими, чтобы установить стандарт, который повышает прозрачность цифровых медиа.