구글이 Gemini 3 Flash AI를 한 단계 업그레이드했습니다. 새로운 Agentic Vision 기능은 모델이 이미지를 단순히 설명하는 것을 넘어서 능동적으로 추론할 수 있도록 합니다. Python 코드를 실행하여 시각 자료를 조작할 수 있어, 결과를 실제 작업에 더 정확하고 유용하게 만듭니다.

이미지 출처: TestingCatalog
보는 것을 실제로 생각하는 AI
정적인 설명에서 스마트한 추론으로
AI가 이미지를 단순히 라벨만 붙이고 끝내던 시대는 지났습니다. Agentic Vision을 통해 Gemini 3 Flash는 단계별 접근 방식을 취합니다: 확대, 주석, 자르기, 그리고 추론 과정을 거쳐 답을 제시합니다. 마치 AI에게 자신이 본 것을 다시 확인할 수 있는 두뇌를 제공하는 것과 같습니다.
코드로 구동되는 시각 지능
특이한 점은? Gemini 3 Flash는 즉석에서 Python 코드를 실행할 수 있습니다. 상자를 그리거나, 세부 정보를 강조 표시하고, 데이터 테이블을 분석하고, 이미지에서 차트를 생성할 수도 있습니다. 이로 인해 추측을 줄이고 시각 작업에서 정확도를 5~10% 향상시켜 결과를 더 신뢰할 수 있게 만듭니다.
개발자와 앱을 위한 쉬운 접근

이미지 출처: TestingCatalog
Google 도구 전반에 걸친 확장
Agentic Vision은 Google AI Studio와 Vertex AI의 Gemini API를 통해 지금 즉시 사용할 수 있으며, 조만간 Gemini 앱에도 적용될 예정입니다. 개발자는 이를 앱에 통합하여 더 똑똑한 이미지 기반 기능과 풍부한 시각적 경험을 제공할 수 있습니다.
앱과 ASO에 중요한 이유
앱 개발자와 마케터에게 있어 더 똑똑한 AI는 더 나은 이미지 인식, 사진 태깅, 시각 분석을 의미합니다. 이는 앱이 경쟁이 치열한 앱 스토어에서 돋보일 수 있게 하고, 참여도를 높이며, 핵심 ASO 지표를 향상시키는 데 도움이 됩니다.
앞으로의 전망
더 많은 도구, 더 똑똑한 AI
Google은 Agentic Vision을 더 많은 모델로 확장하고 자동 이미지 조정, 웹 검색 기반 기능 같은 기능을 추가할 계획입니다. 미래는? AI가 단순히 보는 것을 넘어서 시각 데이터를 지능적으로 처리하고 행동에 옮기는 시대입니다.
댓글
Agentic Vision은 AI가 정적인 답변에서 상호작용 기반 추론으로 진화하고 있음을 보여줍니다. 이를 활용하는 앱은 이미지 기반 검색이나 더 스마트한 분석 등 차별화된 기능을 만들어 경쟁 시장에서 우위를 점할 수 있습니다.




