Google I/O 2024: Все, что вы должны знать об искусственном интеллекте Google - ASO World

Google официально представила несколько продуктов и функций с использованием искусственного интеллекта в рамках своего мероприятия Google I/O 2024. Эта инновационная технология призвана изменить наш способ работы и взаимодействия с ИИ на различных платформах.

Обзор

Google I/O 2024 стал поворотным моментом в эволюции технологии ИИ, когда Сундар Пичаи представил видение будущего Google.

Мероприятие показало трансформационный потенциал Gemini, мультимодельной ИИ-модели Google, на различных платформах.

От трансформации поисковых запросов с использованием ИИ Описаний и ИИ Фотографий до повышения продуктивности в Google Workspace с помощью интеллектуальных кратких содержаний электронной почты, Google показал, как ИИ переформатирует взаимодействие пользователей.

Сундар Пичаи, CEO Google, на Google I/O 2024
(Источник: Google)

Более того, введение ИИ-агентов намекнуло на будущее, где ИИ может помогать пользователям в повседневных задачах, от покупок до переезда.

В дополнение к инновациям, Google подчеркнула свое обязательство к ответственному использованию ИИ, представив меры, такие как ИИ-ассистированное красное командирование и расширенный SynthID, чтобы обеспечить этичное использование технологии ИИ.

Google I/O 2024 подчеркнул не только технологические достижения, но и совместные усилия разработчиков и пользователей в формировании более полезной и ответственной экосистемы ИИ.

Google Gemini

Семейство моделей Gemini от Google представляет несколько обновлений:

1. Gemini 1.5 Flash: Эта легкая модель оптимизирована для скорости и эффективности, обладает возможностями мультимодального рассуждения и расширенным окном контекста. Она отлично справляется с суммированием, чат-приложениями и извлечением данных из длинных документов.

2. Gemini 1.5 Pro: Значительно улучшенная с расширенным логическим рассуждением, многоходовым разговором и пониманием аудио и изображений. Теперь поддерживается окно контекста в 2 миллиона токенов, что позволяет выполнять более сложные задачи.

3. Gemini Nano: Расширяясь за пределы только текстовых вводов, Nano теперь включает изображения, обеспечивая лучшее понимание мира через зрение, слух и разговорный язык.

4. Следующее поколение открытых моделей (Gemma 2): Gemma 2 разработана для ответственного инновационного использования ИИ, обладает прорывной производительностью и эффективностью. Она также представляет PaliGemma, первую модель видео-языка, вдохновленную PaLI-3.

5. Прогресс в области ИИ-помощников (Проект Астра): Проект Астра направлен на разработку проактивных и персональных ИИ-помощников, способных понимать и реагировать на сложные и динамические ситуации. Используя преимущества Gemini, эти помощники могут обрабатывать информацию быстрее и отвечать более разговорным образом.

Эти обновления представляют собой значительные достижения в области технологии ИИ, расширяя границы того, что могут достичь модели ИИ.

Google Фото: Поиск Фотографий с помощью Gemini

(Источник: Google)

Поиск Фотографий - новая экспериментальная функция в Google Фото, основанная на модели ИИ Gemini.

Она упрощает поиск конкретных фотографий или информации, позволяя пользователям задавать вопросы естественным языком, например: "Покажите мне лучшую фотографию из каждого национального парка, которые я посетил(а)".

Используя продвинутые мультимодальные возможности, Поиск Фотографий анализирует содержание фотографий, чтобы дать интеллектуальные ответы, даже распознавая детали, такие как темы на днях рождения.

С акцентом на конфиденциальность, Google обеспечивает защиту личных данных и не использует их для рекламы, делая Поиск Фотографий удобным и безопасным инструментом для управления коллекциями фотографий.

Генеративный ИИ в Поиске

Google Поиск претерпел значительную эволюцию с появлением генеративного ИИ, позволяющего пользователям легко ориентироваться в информации.

С настраиваемой моделью Gemini теперь Поиск предлагает ИИ-Обзоры, которые предоставляют краткие сведения по темам, сопровождаемые соответствующими ссылками для дальнейшего изучения.

Эти ИИ-Обзоры разработаны для экономии времени и увеличения удовлетворенности пользователя, как это показано в миллиардах успешных использований в экспериментах Лабораторий Поиска.

С начала этой недели ИИ-Обзоры будут доступны пользователям в США, с планами на глобальное распространение к концу года.

Теперь пользователи могут регулировать уровень детализации в обзорах и задавать сложные вопросы в одном поиске, увеличивая доступность и эффективность.

Например, пользователи могут задавать детализированные запросы, такие как поиск лучших студий йоги в Бостоне с предложениями для новичков и временем ходьбы от Бикон Хилл.

Поиск также помогает в планировании активностей, таких как еда и отпуск, и в скором времени предложит страницы результатов, организованные с помощью ИИ для более легкого изучения.

Продвинутые возможности понимания видео позволяют проводить поиск с помощью видео, делая поиск проблем и сбор информации более наглядными. Эти инновации делают Google Поиск более умным и интуитивным.

>>> Google расширяет результаты поиска с помощью ИИ для пользователей без активации

VideoFX, ImageFX и MusicFX

Google также представил VideoFX, а также новые функции для ImageFX и MusicFX

>>> Обзор: Google расширяет пакет ИИ с ImageFX и MusicFX в Лабораториях

VideoFX - последний эксперимент от labs.google, революционизирующий создание видео с помощью своей передовой генеративной видеомодели Veo. С помощью простого текстового запроса пользователи могут превратить идеи в захватывающие видеоролики с кинематографическими эффектами и музыкальным сопровождением.

ImageFX теперь предлагает расширенные инструменты редактирования, позволяя пользователям легко манипулировать определенными элементами на своих изображениях.

Дополнительно, Imagen 3, последняя модель генерации изображений, улучшает фотореализм и рендеринг текста.

MusicFX вводит DJ-режим, позволяя пользователям легко смешивать ритмы и жанры, создавая динамичные музыкальные истории.

Эти обновления отражают приверженность Google к продвижению ответственного генеративного ИИ, позволяя пользователям выражать свою креативность аутентично.

Новые Модели и Инструменты Генеративных Медиа

Генератор Видео: Veo

Veo - это последнее достижение Google в области создания видео. Он создает потрясающие видеоролики с разрешением 1080p с точным пониманием языка и визуальных эффектов, предлагая непревзойденный контроль над творчеством.

С функциями, такими как многоэтапное рассуждение, Veo создает связное и реалистичное видео, продемонстрированное через сотрудничество с режиссером Дональдом Гловером.

Генератор Изображений: Imagen 3

Imagen 3 генерирует реалистичные изображения с невероятной детализацией и реализмом.

Он понимает естественный язык и включает небольшие детали для улучшения изображений. Imagen 3 идеально подходит для персонализированных сообщений и презентаций, теперь доступен в ImageFX для выбранных создателей.

Модель Обучения: LearnLM

(Источник: Google)

LearnLM, новая семья моделей Google для обучения, использует генеративный ИИ для улучшения образовательного опыта.

Основываясь на научных исследованиях в области образования, LearnLM стремится сделать обучение более увлекательным, персональным и полезным. Он включает принципы, такие как стимулирование активного обучения, управление когнитивной нагрузкой и адаптацию к потребностям учащегося.

>>> Кейс-стади по Образовательному Приложению

Google интегрирует LearnLM в существующие продукты, такие как Поиск, YouTube и Gemini, что позволяет более интерактивные и персонализированные обучающие опыты.

Дополнительно Google тестирует новые инструменты, такие как Illuminate, который разбирает научные статьи на аудио-беседы, и Learn About, платформу для самопроизвольного обучения через различные медиа.

Через партнерство с педагогами и образовательными учреждениями, Google работает над максимизацией преимуществ ИИ в образовании, учитывая потенциальные риски.

Инструменты для Разработки ИИ

Google предлагает открытую экосистему инструментов для разработки ИИ:

Keras: Используйте Keras для запуска рабочих процессов поверх TensorFlow, PyTorch или JAX.
LoRA с Keras на Colab: Легко настраивайте модели.
OpenXLA: Ускорьте скорость обучения.
RAPIDS cuDF: Ускорьте рабочие нагрузки в Colab.

1. Разработка мобильных приложений

Google сосредотачивается на создании AI-усиленных возможностей для Android:

> Gemini в Android Studio: Создан для упрощения создания качественных приложений для Android быстрее.

> Gemini Nano & AICore: Выполняйте эффективные модели непосредственно на мобильных устройствах пользователей, обеспечивая быстрый отклик и улучшенную конфиденциальность данных.

> Kotlin Multiplatform (KMP) на Android: Разработчики могут повысить производительность, делясь бизнес-логикой приложения между платформами с поддержкой KMP на Android.

> Jetpack Compose: Jetpack Compose предлагает инструменты для создания потрясающих, адаптивных пользовательских интерфейсов для Android.

2. Веб-разработка

Google предлагает инструменты для улучшения веб-разработки:

> Gemini Nano в Chrome: Интеграция AI на устройствах с помощью WebGPU, WebAssembly и интеграция Gemini Nano в рабочий стол Chrome.

> API Правил спекуляции: Позволяет предварительную подгрузку и предварительное рендеринг страниц для более быстрого и плавного просмотра.

> API переходов для многостраничных сайтов: Обеспечивает плавные, жидкие навигационные возможности по разнообразным архитектурам сайтов.

> Инструменты консоли Chrome DevTools: Google вводит AI-приводимые инсайты в консоль Chrome DevTools для упрощения процесса отладки.

3. Полностековая, многофункциональная разработка

Google предоставляет инструменты для создания, тестирования и развертывания приложений с полным стеком и поддержкой AI:

> Проект IDX: Упрощенный опыт разработки для приложений с полным стеком, многоплатформенными и AI.

> Обновления Flutter и Dart: Flutter и Dart получают обновления для повышения производительности и поддержки.

> Развивающийся Firebase для современных, AI-усиленных приложений: Firebase теперь поддерживает подключение к базе данных PostgreSQL, упрощенные развертывания из GitHub и AI-функции с моделями Gemma.

> Checks: AI-усиленная платформа проверки соответствия Google упрощает процессы конфиденциальности и соответствия приложений.

API Gemini & Конкурс Разработчиков

API Gemini Конкурс Разработчиков

Конкурс разработчиков API Gemini предоставляет разработчикам всех уровней возможность повлиять на будущее ИИ.

Интегрируя API Gemini в свои приложения, разработчики могут решать реальные задачи и вносить свой вклад в лучшее будущее.

Gemini 1.5 Новые функции API

С функциями, такими как настройка, инструкции системы и режим JSON, API Gemini в Google AI Studio облегчает прототипирование и создание с мощными моделями Gemini.

"Разработчики могут перейти по ai.google.dev/competition для получения дополнительной информации о призах, категориях, ресурсах и официальных правилах.

Конкурс продлится до 12 августа 2024 года. После его завершения вы сможете проголосовать за свое любимое приложение, чтобы оно выиграло награду "Выбор зрителей"!"

Безопасность ИИ и Избежание Неправильного Использования

AI-помогаемое Красное Тимирование и Экспертная Обратная Связь

Google объединяет передовые исследования с человеческими знаниями для улучшения своих моделей, таких как Gemini. Они представляют "AI-помогаемое Красное Тимирование", метод, вдохновленный достижениями DeepMind в игровой сфере Google.

Это включает в себя обучение AI-агентов на конкурентных принципах для расширения возможностей Красного Тимирования.

Путем решения проблемы адверсарного подталкивания и ограничения проблемных результатов Google стремится улучшить точность и надежность своих моделей.

Также обратная связь от внутренних специалистов по безопасности и независимых экспертов интегрируется для дальнейшего улучшения производительности модели.

Водяные Знаки ИИ для Текста и Видео: SynthID

Водяные Знаки ИИ для Текста и Видео: SynthID
(Кредит: Google)

Поскольку результаты моделей становятся более реалистичными, Google представляет SynthID, технологию, которая добавляет незаметные водяные знаки к созданным ИИ изображениям и аудио для облегчения идентификации и защиты от неправильного использования.

В этом году Google расширяет SynthID, чтобы включить водяные знаки для текста и видео, в рамках своих широких инвестиций в помощь пользователям в понимании происхождения цифрового контента.

Сотрудничество в Области Защиты

Google обязуется сотрудничать с экосистемой для обеспечения ответственного использования ИИ. В ближайшие месяцы они планируют открыть исходный код текстовой водяной метки SynthID через обновленный Набор Инструментов Ответственного Генеративного ИИ.

Кроме того, Google является участником Коалиции за Происхождение и Аутентичность Контента (C2PA), сотрудничая с Adobe, Microsoft, стартапами и другими, чтобы установить стандарт, который повышает прозрачность цифровых медиа.