使用 Gemini 和 Vertex AI 构建 AI 图像识别应用程序

碧海醫心

发布时间：2026-01-15 09:37:14

967人浏览过

来源于php中文网

原创

在人工智能（ai）主导的时代，图像识别技术正成为各类应用的核心支柱。无论是智能驾驶系统还是疾病辅助诊断，对高精度、高稳定性的图像识别能力的需求始终在攀升。本文将带您一步步实践，如何借助 google 的 gemini 模型与 vertex ai 平台，搭建一套专属的 ai 图像识别应用。gemini 是一款先进的多模态大模型，具备跨模态理解与生成能力，可同时处理文本、图像、代码等多种类型的内容。vertex ai 则是 google cloud 提供的一站式机器学习平台，集成了模型开发、训练、部署与监控等全生命周期管理功能。将二者协同使用，能让您以更短周期、更高效率完成定制化图像识别系统的构建。本指南涵盖详细操作流程、可运行代码示例及典型问题应对策略，助您顺利落地项目。

要点

基于 Google Gemini 模型与 Vertex AI 平台搭建 AI 图像识别系统。
Gemini 具备强大的多模态感知与生成能力，支持图文联合理解与推理。
Vertex AI 是 Google Cloud 上的统一 ML 开发平台，提供模型训练、部署与规模化服务支持。
Gemini 与 Vertex AI 深度集成，显著降低图像识别类应用的开发门槛与实施成本。
教程包含分步操作指引、完整代码片段及实用排错方法。

构建 AI 图像识别应用程序

准备工作

在启动开发前，请确认已完成以下基础配置：

Google Cloud 账户： 若尚未注册，请先创建账户。Vertex AI 服务必须依托有效的 Google Cloud 账户方可启用。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
启用 Vertex AI API： 登录 Google Cloud 控制台，在对应项目中开启 Vertex AI API。
安装 Python SDK： 通过 pip 安装官方 Vertex AI Python 客户端库，用于程序化调用相关服务。
```
  pip install google-cloud-aiplatform
```
配置身份验证机制： 在本地环境完成身份认证配置，推荐使用 Google Cloud CLI 或服务账号密钥方式，确保 SDK 可安全访问云端资源。
掌握 Python 基础： 本教程默认读者已具备 Python 编程经验，能理解基本语法与模块调用逻辑。

使用 Vertex AI Python SDK

实验环境启动后，界面将分为左右两栏：左侧为代码编辑区，右侧为操作指引。请按如下步骤接入生成式 AI 接口：

1. 新建源文件

在编辑器中点击 File > New File，新建一个空白脚本文件。

2. 插入核心代码

将下方代码块复制并粘贴至编辑器中。

使用 Gemini 和 Vertex AI 构建 AI 图像识别应用程序

以下代码利用 Gemini 视觉模型解析图像语义内容：

from google.cloud import aiplatform

client = aiplatform.gapic.PredictionServiceClient(
    client_options={"api_endpoint": "us-central1-aiplatform.googleapis.com"}
)

model = "gemini-pro-vision"
location = "us-central1"

instance = {
    "image": {
        "image_bytes": {
            "mime_type": "image/jpeg",
            "data": image_data,
        }
    },
    "prompt": "What is shown in this image?",
}

response = client.predict(
    endpoint=f"projects/{project_id}/locations/{location}/endpoints/{model}",
    instances=[instance],
    parameters=parameters,
)

print(response.predictions[0]["content"])

3. 保存脚本文件

点击 File > Save，输入文件名为 genai.py，确认保存。

4. 配置运行环境变量

在新终端窗口中执行以下命令，设置必要环境参数：

export GOOGLE_CLOUD_PROJECT=[YOUR_PROJECT_ID]
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=TRUE

请将 [YOUR_PROJECT_ID] 替换为您实际的 Google Cloud 项目标识符。

GarbageSort垃圾识别工具箱

GarbageSort垃圾识别工具箱是一个基于uni-app开发的微信小程序，使用SpringBoot2搭建后端服务，使用Swagger2构建Restful接口文档，实现了文字查询、语音识别、图像识别其垃圾分类的功能。前端：微信小程序采用 uni-app 开发框架，uni-app 是一个使用 Vue.js 开发所有前端应用的框架，开发者编写一套代码，可发布到iOS、Android、H5、以及各

下载

5. 执行脚本并查看结果

在代码编辑器所在窗格中运行以下命令：

python3 genai.py

⚠️ 注意：若返回 HTTP 500 错误，建议重试执行；部分情况下需重新加载环境变量后再运行。

成功运行后，终端将输出模型对所传图像内容的自然语言描述。

代码原理详解

我们来逐层解析该段逻辑的实现机制：

依赖导入： 引入 google.cloud.aiplatform 模块，作为连接 Vertex AI 服务的桥梁。
客户端初始化： 构造 PredictionServiceClient 实例，并指定美国中部区域（us-central1）的 API 端点。
模型与区域设定： 明确调用 gemini-pro-vision 多模态模型，并限定其部署地域。
请求体构造： 组织预测请求数据结构，含图像原始字节（Base64 编码）、MIME 类型及用户提问文本（prompt）。
发起推理请求： 调用 client.predict() 方法，向指定模型端点提交请求，其中 instances 为输入样本，parameters 为可选调控参数。
结果提取与输出： 从响应对象中读取首个预测项的 content 字段，即模型生成的图像语义描述。

该示例实质是在 Vertex AI 上加载预训练的 Gemini 模型（如 gemini-2.0-flash-001），并通过 generate_content 接口完成图文联合推理。输入包括图像 URI 和自然语言指令，模型据此完成跨模态理解任务，并输出符合提示意图的文本答案。

优化图像识别应用程序

合理选用 Gemini 模型

Gemini 系列提供多种规格模型，适用于不同复杂度与性能要求的场景。针对图像识别任务，gemini-pro-vision 是通用首选；但当面对细粒度识别、低光照图像或医学影像等挑战性任务时，可尝试更高阶模型。

权衡模型规模： 更大的参数量通常带来更强泛化力，但会增加延迟与计费成本。应结合业务 SLA 选取最优平衡点。
对比模型架构差异： Gemini 不同版本融合了 Transformer 主干与视觉专用 CNN 结构，建议在真实数据上横向测试各版本表现。
引入迁移学习策略： 可基于 Gemini 的视觉编码器进行轻量化微调（Fine-tuning），仅用少量标注样本即可适配垂直领域需求，大幅节省训练开销。