구글 제미니 3 플래시가 더 똑똑해지다: 이제 AI가 이미지를 "생각"할 수 있다

구글이 Gemini 3 Flash AI를 한 단계 업그레이드했습니다. 새로운 Agentic Vision 기능은 모델이 이미지를 단순히 설명하는 것을 넘어서 능동적으로 추론할 수 있도록 합니다. Python 코드를 실행하여 시각 자료를 조작할 수 있어, 결과를 실제 작업에 더 정확하고 유용하게 만듭니다.

이미지 출처: TestingCatalog

보는 것을 실제로 생각하는 AI

정적인 설명에서 스마트한 추론으로

AI가 이미지를 단순히 라벨만 붙이고 끝내던 시대는 지났습니다. Agentic Vision을 통해 Gemini 3 Flash는 단계별 접근 방식을 취합니다: 확대, 주석, 자르기, 그리고 추론 과정을 거쳐 답을 제시합니다. 마치 AI에게 자신이 본 것을 다시 확인할 수 있는 두뇌를 제공하는 것과 같습니다.

코드로 구동되는 시각 지능

특이한 점은? Gemini 3 Flash는 즉석에서 Python 코드를 실행할 수 있습니다. 상자를 그리거나, 세부 정보를 강조 표시하고, 데이터 테이블을 분석하고, 이미지에서 차트를 생성할 수도 있습니다. 이로 인해 추측을 줄이고 시각 작업에서 정확도를 5~10% 향상시켜 결과를 더 신뢰할 수 있게 만듭니다.

개발자와 앱을 위한 쉬운 접근

이미지 출처: TestingCatalog

Google 도구 전반에 걸친 확장

Agentic Vision은 Google AI Studio와 Vertex AI의 Gemini API를 통해 지금 즉시 사용할 수 있으며, 조만간 Gemini 앱에도 적용될 예정입니다. 개발자는 이를 앱에 통합하여 더 똑똑한 이미지 기반 기능과 풍부한 시각적 경험을 제공할 수 있습니다.