Google I/O 2024: Google AI에 대해 알아야 할 모든 것 - ASO World

구글은 공식적으로 구글 I/O 2024 행사에서 인공 지능을 활용한 여러 제품과 기능을 소개했습니다. 이 혁신적인 기술은 우리가 다양한 플랫폼에서 작업하고 인공 지능과 상호 작용하는 방식을 혁신할 것으로 예상됩니다.

개요

구글 I/O 2024는 인공 지능 기술의 진화에서 중요한 순간을 표시했습니다. 선다르 피차이가 구글의 미래 비전을 공개했습니다.

이 행사에서는 구글의 다중 모달 인공 지능 모델인 Gemini의 변혁적인 잠재력이 다양한 플랫폼에서 어떻게 나타나는지 보여주었습니다.

AI 개요와 사진 질문을 통해 검색 경험을 혁신하고, 지능형 이메일 요약을 통해 Google Workspace의 생산성을 향상시키는 등, 구글은 AI가 사용자 상호 작용을 재구성하는 방법을 보여주었습니다.

구글 CEO 선다르 피차이 구글 I/O 2024
(출처: 구글)

또한 AI 에이전트의 소개는 쇼핑부터 이주까지 일상적인 작업에서 AI가 사용자를 지원할 수 있는 미래를 시사했습니다.

혁신과 함께, 구글은 AI의 책임 있는 사용에 대한 약속을 강조했습니다. AI 지원 레드팀 및 확대된 SynthID와 같은 조치를 도입하여 AI 기술의 윤리적 사용을 보장했습니다.

구글 I/O 2024는 기술적 진보 뿐만 아니라 개발자와 사용자의 협력 노력을 강조하여 보다 유용하고 책임 있는 AI 생태계를 형성했습니다.

구글 Gemini

구글의 Gemini 모델 패밀리는 여러 업데이트를 소개합니다:

1. Gemini 1.5 Flash: 이 경량 모델은 속도와 효율성을 위해 최적화되었으며, 다중 모달 추론 능력과 확장된 컨텍스트 창을 갖추고 있습니다. 이 모델은 요약, 채팅 응용 프로그램 및 긴 문서에서의 데이터 추출에서 우수한 성과를 보입니다.

2. Gemini 1.5 Pro: 향상된 논리 추론, 다중 턴 대화 및 오디오 및 이미지 이해가 특징인 이 모델은 이제 2백만 토큰 컨텍스트 창을 지원하여 더 복잡한 작업이 가능합니다.

3. Gemini Nano: 텍스트만이 아닌 이미지까지 포함한 Nano는 시각, 청각 및 말로 더 나은 세계 이해를 가능케 합니다.

4. 다음 세대 오픈 모델 (Gemma 2): Gemma 2는 혁신적인 AI를 위해 설계되었으며, 획기적인 성능과 효율성을 제공합니다. 또한 PaLI-3에서 영감을 받은 최초의 비전 언어 모델 인 PaliGemma를 소개합니다.

5. AI 어시스턴트에 대한 진전 (프로젝트 Astra): 프로젝트 Astra는 복잡하고 동적인 상황을 이해하고 대응할 수 있는 미래의 적극적이고 개인화된 AI 어시스턴트를 개발하는 것을 목표로 합니다. Gemini의 발전을 활용하여 이러한 어시스턴트는 정보를 더 빠르게 처리하고 대화식으로 응답할 수 있습니다.

이러한 업데이트는 AI 기술의 중요한 발전을 나타내며, AI 모델이 달성할 수 있는 한계를 넓히고 있습니다.

Google 포토: Gemini로 사진에 질문하기

(출처: Google)

'사진에 질문 (Ask Photos)'은 Gemini AI 모델에 의해 구동되는 Google 포토의 새로운 실험적 기능입니다.

이 기능은 사용자가 "내가 방문한 각 국립 공원에서 최고의 사진을 보여줘"와 같은 자연어 질문을 할 수 있도록 하여 특정 사진 또는 정보를 찾는 작업을 간단하게 만듭니다.

고급 다중 모달 기능을 활용하여 사진에 질문는 사진 내용을 분석하여 테마와 같은 세부 사항도 인식하여 지능적인 응답을 제공합니다.

Google은 개인 정보 보호에 중점을 두어 개인 데이터가 광고에 사용되지 않고 사진 컬렉션을 관리하기 위한 편리하고 안전한 도구로 사진에 질문를 제공합니다.

검색에서의 생성 모델 AI

생성 모델 AI의 도입으로 Google 검색이 상당한 발전을 이루었습니다. 이를 통해 사용자가 정보를 손쉽게 탐색할 수 있습니다.

커스터마이즈된 Gemini 모델을 사용하여 검색은 이제 AI 개요를 제공합니다. 이는 주제의 간단한 요약과 함께 관련 링크를 제공합니다.

이러한 AI 개요는 시간을 절약하고 사용자 만족도를 높이기 위해 설계되었으며, 검색 실험실에서 수십억 건의 성공적인 사용 사례를 통해 입증되었습니다.

이번 주부터 AI 개요는 미국 사용자에게 제공되며, 올해 말에는 글로벌 확장이 계획되어 있습니다.

사용자는 이제 요약의 세부 수준을 조절하고 한 번의 검색으로 복잡한 질문을 할 수 있어 접근성과 효율성이 향상되었습니다.

예를 들어, 사용자는 "보스턴의 최고의 요가 스튜디오 찾기: 간단한 제안과 Beacon Hill에서의 도보 시간"과 같이 상세한 질문을 할 수 있습니다.

또한 검색은 식사와 휴가와 같은 활동을 계획하는 데 도움을 주며, 곧 보다 쉬운 탐색을 위한 AI로 구성된 결과 페이지를 제공할 예정입니다.

영상 이해 기술의 발전을 통해 동영상 검색이 가능해지면서 문제 해결과 정보 수집이 시각적으로 더욱 향상되었습니다. 이러한 혁신은 Google 검색을 더욱 똑똑하고 직관적으로 만듭니다.

>>> Google, 비권유 사용자에게 AI 검색 결과 확대

VideoFX, ImageFX 및 MusicFX

Google은 또한 VideoFX와 ImageFX, MusicFX에 대한 새로운 기능을 소개했습니다.

>>> 리뷰: Google, ImageFX와 MusicFX로 AI 스위트 확장

VideoFX는 labs.google의 최신 실험으로, 고급 생성 비디오 모델인 Veo를 통해 비디오 제작을 혁신합니다. 사용자는 텍스트 프롬프트만으로 아이디어를 관객을 매료시키는 비디오 클립으로 변환할 수 있으며, 이에는 영화적 효과와 음악이 포함됩니다.

ImageFX는 이제 사용자가 이미지의 특정 요소를 쉽게 조작할 수 있는 고급 편집 제어를 제공합니다.

또한 최신 이미지 생성 모델 인 Imagen 3은 사진 현실성과 텍스트 렌더링을 향상시킵니다.

MusicFX는 DJ 모드를 도입하여 사용자가 손쉽게 비트와 장르를 혼합하여 동적인 음악 이야기를 만들 수 있습니다.

이러한 업데이트는 Google이 책임감 있는 생성 AI를 발전시키는 동시에 사용자가 자신의 창의성을 진정하게 표현할 수 있도록 하는 데 기여합니다.

새로운 생성 미디어 모델 및 도구

비디오 생성기: Veo

Veo는 Google의 최신 비디오 생성 기술입니다. 이는 언어와 시각의 정확한 이해를 바탕으로 놀라운 1080p 비디오를 생성하여 전례없는 창의적인 통제를 제공합니다.

다단계 추론과 같은 기능을 사용하여 Veo는 일관된 현실적인 영상을 생성합니다. 이는 영화 제작자 도널드 글로버와의 협력을 통해 입증되었습니다.

이미지 생성기: Imagen 3

Imagen 3은 놀라운 세부 사항과 현실감 있는 이미지를 생성합니다.

이는 자연어를 이해하고 작은 세부 사항을 포함하여 이미지를 향상시킵니다. Imagen 3은 선택된 크리에이터를 위한 ImageFX에서 사용할 수 있습니다.

학습 모델: LearnLM

(출처: Google)

LearnLM은 학습을 위한 Google의 새로운 모델 군으로, 생성적 AI를 활용하여 교육 경험을 향상시킵니다.

교육 연구를 기반으로 한 LearnLM은 학습을 더욱 흥미롭고 개인적이며 유용하게 만들기 위한 것입니다. 이는 활성 학습을 고무하고 인지 부하를 관리하며 학습자의 요구에 적응하는 원칙을 포함합니다.

>>> 교육 앱 사례 연구

Google은 LearnLM을 검색, YouTube 및 Gemini와 같은 기존 제품에 통합하여 보다 상호 작용적이고 개인화된 학습 경험을 가능하게 합니다.

또한, Google은 연구 논문을 음성 대화로 변환하는 Illuminate와 다양한 미디어를 통한 자율 학습을 위한 플랫폼 인 Learn About과 같은 새로운 도구를 시범 운영하고 있습니다.

교육가 및 교육 기관과의 협력을 통해 Google은 교육에서 AI의 혜택을 극대화하고 잠재적인 위험을 대처하고 있습니다.

AI 개발을 위한 도구

Google은 AI 개발을 위한 개방형 생태계 도구를 제공합니다:

Keras: TensorFlow, PyTorch 또는 JAX 위에서 워크플로우 실행에 Keras를 사용할 수 있습니다.
Colab에서 Keras와 함께 LoRA: 모델을 쉽게 세밀하게 조정할 수 있습니다.
OpenXLA: 교육 속도를 급격히 향상시킵니다.
RAPIDS cuDF: Colab에서 워크로드를 가속화합니다.

1. 모바일 개발

Google은 안드로이드를 위한 AI 증강 경험을 제공하는 데 초점을 맞추고 있습니다:

> 안드로이드 스튜디오의 Gemini: 고품질 안드로이드 앱을 더 빠르게 구축할 수 있도록 설계되었습니다.

> Gemini Nano & AICore: 모바일 기기에서 효율적인 모델을 직접 실행하여 저지연 응답과 개인정보 보호를 가능하게 합니다.

> 안드로이드에서 Kotlin Multiplatform (KMP): 개발자는 안드로이드의 KMP에 대한 우수한 지원으로 플랫폼 간 앱 비즈니스 로직을 공유하여 생산성을 향상시킬 수 있습니다.

> Jetpack Compose: Jetpack Compose는 안드로이드를 위한 멋진 적응형 사용자 경험을 구축하는 데 도움이 되는 도구를 제공합니다.

권장 독서:

>>> Google I/O 2024 Google Play의 앱과 게임을 위한 주요 개발자 인사이트

2. 웹 개발

Google은 더 나은 웹 개발을 위한 도구를 제공합니다:

> Chrome의 Gemini Nano: 웹GPU, WebAssembly 및 Chrome 데스크톱의 Gemini Nano 통합을 통해 기기 내 AI를 통합합니다.

> Speculation Rules API: 빠르고 원활한 브라우징 경험을 위해 페이지의 사전 검색 및 사전 렌더링을 가능하게 합니다.

> 다중 페이지 사이트용 View Transitions API: 다양한 웹 사이트 구조에서 부드럽고 유동적인 탐색 경험을 누릴 수 있습니다.

> Chrome DevTools 콘솔 인사이트: Google은 Chrome DevTools 콘솔 내에서 AI 기반의 인사이트를 소개하여 디버깅 프로세스를 간소화합니다.

3. 풀 스택, 다중 플랫폼 개발

Google은 AI 기반의 풀 스택 앱을 구축, 테스트 및 출시하는 데 필요한 도구를 제공합니다:

> Project IDX: 풀 스택, 다중 플랫폼 및 AI 기반 앱을 위한 간소화된 개발 경험.

> Flutter와 Dart 업데이트: Flutter와 Dart는 성능과 지원 향상을 위한 업데이트를 받습니다.

> 현대적인 AI 기반 앱을 위해 Firebase 발전: Firebase는 이제 PostgreSQL 데이터베이스 연결, GitHub로부터 간소화된 배포, Gemma 모델을 사용한 AI 기능을 지원합니다.

> Checks: Google의 AI 기반 준수 플랫폼인 Checks는 앱 개인 정보 보호 및 준수 작업을 단순화합니다.

Gemini API & 개발자 대회

Gemini API 개발자 대회는 모든 수 준의 개발자들에게 AI의 미래를 모양있게 만들 기회를 제공합니다.

Gemini API를 자신의 애플리케이션에 통합함으로써 개발자들은 실제 문제를 해결하고 더 나은 미래에 기여할 수 있습니다.

Gemini 1.5 새로운 API 기능

조율, 시스템 지침 및 JSON 모드와 같은 기능으로 Google AI Studio의 Gemini API는 강력한 Gemini 모델로 프로토타입을 만들고 구축하는 것이 쉽습니다.

"상금, 카테고리, 리소스 및 공식 규칙에 대한 자세한 정보는 ai.google.dev/competition에서 확인할 수 있습니다.

대회는 2024년 8월 12일까지 진행됩니다. 대회가 종료되면 최우수 앱을 선정하여 인기 투표를 할 수 있습니다!"

AI 안전 및 오용 방지

AI 지원 레드 팀 및 전문가 피드백

Google은 Gemini와 같은 모델을 향상시키기 위해 첨단 연구와 인간의 전문 지식을 결합하고 있습니다. 그들은 Google DeepMind의 게임 개발 혁신에서 영감을 받은 "AI 지원 레드 팀"을 소개하고 있습니다.

이것은 AI 에이전트를 훈련하여 레드 팀 능력의 범위를 확장시키는 것을 의미합니다.

Google은 적대적인 프롬프팅을 대처하고 문제가되는 출력을 제한함으로써 모델의 정확성과 신뢰성을 향상시키고자 합니다.

또한, 내부 안전 전문가 및 독립 전문가들의 피드백이 모델 성능을 더욱 향상시키도록 통합됩니다.

AI 텍스트 및 비디오 워터마크: SynthID

AI 텍스트 및 비디오 워터마크: SynthID
(제공: Google)

모델의 출력이 더 현실적으로 되면서 Google은 AI 생성 이미지와 오디오에 인식하기 어려운 워터마크를 추가하는 SynthID 기술을 소개합니다. 이를 통해 오용을 방지하고 식별을 용이하게 할 수 있습니다.

올해에는 Google이 텍스트와 비디오를 포함한 SynthID를 확대하는데, 이는 디지털 콘텐츠의 출처를 이해하는 데 대한 더 넓은 투자의 일환입니다.

보안에 대한 협력

Google은 AI의 책임 있는 사용을 보장하기 위해 생태계와 협력하기로 했습니다. 앞으로 수개월 동안, Google은 업데이트된 책임 있는 생성 AI 툴킷을 통해 SynthID 텍스트 워터마킹을 오픈 소스로 공개할 계획입니다.

또한, Google은 디지털 미디어의 투명성을 향상시키기 위해 Adobe, Microsoft, 스타트업 및 기타 회사와 협력하는 콘텐츠 출처 및 진위를위한 연합에 가입했습니다.