Gemini Pro API安全设置详解：如何有效避免内容阻断

心靈之曲

发布时间：2025-11-19 13:36:07

746人浏览过

来源于php中文网

原创

Gemini Pro API安全设置详解：如何有效避免内容阻断

gemini pro api在自定义安全设置后仍可能阻断回复。本文将详细解释为何直接设置字典无效，并提供正确的python代码示例，指导开发者通过导入`safetysetting`、`harmcategory`和`harmblockthreshold`等类，以对象列表形式配置安全阈值，从而有效管理内容审核，确保api稳定输出，避免不必要的阻断异常。

理解Gemini Pro API的安全机制与阻断问题

Google Gemini Pro API集成了强大的内容安全检测机制，旨在过滤有害、不适宜或违反政策的内容。开发者在使用API时，即使尝试通过自定义safety_settings来放宽内容限制，仍可能遇到BlockedPromptException，提示内容因安全原因被阻断。这通常是因为对安全设置的配置方式存在误解。

最初，开发者可能尝试直接将一个字典传递给safety_settings参数，例如：

def get_gemini_response(question, safety_settings=None):
    if safety_settings is None:
        safety_settings = {
            'SEXUALLY_EXPLICIT': 'block_none',
            'HATE_SPEECH': 'block_none',
            'HARASSMENT': 'block_none',
            'DANGEROUS_CONTENT': 'block_none'
        }
    # ... 调用模型 ...

然而，这种字典形式的设置方式并不能被Gemini Pro API正确解析为有效的安全配置。API期望接收的是一个特定类型的对象列表，而不是简单的字符串映射。当API收到不符合预期的设置时，它会回退到默认的安全策略，或者无法正确应用自定义规则，从而导致即使开发者意图“不阻断任何内容”（block_none），仍然会因内容被判定为高风险而触发阻断异常，例如：

BlockedPromptException: block_reason: SAFETY safety_ratings { category: HARM_CATEGORY_SEXUALLY_EXPLICIT probability: NEGLIGIBLE } safety_ratings { category: HARM_CATEGORY_HATE_SPEECH probability: HIGH } safety_ratings { category: HARM_CATEGORY_HARASSMENT probability: NEGLIGIBLE } safety_ratings { category: HARM_CATEGORY_DANGEROUS_CONTENT probability: NEGLIGIBLE }

这个异常明确指出，即使其他类别概率较低，HARM_CATEGORY_HATE_SPEECH的概率为HIGH，这足以触发默认的阻断机制。

正确配置Gemini Pro API安全设置

要正确配置Gemini Pro API的安全设置，我们需要导入特定的类，并以SafetySetting对象的列表形式来定义每个有害类别的阻断阈值。

1. 导入必要的类

首先，从vertexai.preview.generative_models和google.cloud.aiplatform_v1beta1.types.content中导入相关类：

from vertexai.preview.generative_models import (
    GenerativeModel,
    HarmCategory, 
    HarmBlockThreshold,
    GenerationResponse
)
from google.cloud.aiplatform_v1beta1.types.content import SafetySetting

GenerativeModel: 用于实例化Gemini模型。
HarmCategory: 定义了各种有害内容类别，如HARM_CATEGORY_SEXUALLY_EXPLICIT、HARM_CATEGORY_HATE_SPEECH等。
HarmBlockThreshold: 定义了每个有害类别的阻断阈值，如BLOCK_NONE、BLOCK_ONLY_HIGH等。
SafetySetting: 一个数据结构，用于封装单个有害类别的阻断策略。
GenerationResponse: 模型生成的响应类型。

2. 构建SafetySetting对象列表

接下来，在调用model.generate_content()时，将safety_settings参数设置为一个包含SafetySetting对象的列表。每个SafetySetting对象应指定一个category（有害类别）和一个threshold（阻断阈值）。

以下是正确配置所有常见有害类别为“不阻断”（BLOCK_NONE）的示例：

Spell.tools

高颜值AI内容营销创作工具

下载

from vertexai.preview.generative_models import (
    GenerativeModel,
    HarmCategory, 
    HarmBlockThreshold,
    GenerationResponse
)
from google.cloud.aiplatform_v1beta1.types.content import SafetySetting

def get_gemini_response_with_custom_safety(prompt_text: str, text: str) -> GenerationResponse:
    """
    使用自定义安全设置调用Gemini Pro模型。

    Args:
        prompt_text: 包含占位符的提示模板。
        text: 填充到提示模板中的实际文本。

    Returns:
        模型的生成响应。
    """
    model = GenerativeModel("gemini-pro")

    response: GenerationResponse = model.generate_content(
        prompt_text.format(text),
        generation_config={
            "max_output_tokens": 2048,
            "temperature": 0,
            "top_p": 1,
        },
        safety_settings=[
            SafetySetting(
                category=HarmCategory.HARM_CATEGORY_SEXUALLY_EXPLICIT,
                threshold=HarmBlockThreshold.BLOCK_NONE,
            ),
            SafetySetting(
                category=HarmCategory.HARM_CATEGORY_DANGEROUS_CONTENT,
                threshold=HarmBlockThreshold.BLOCK_NONE,
            ),
            SafetySetting(
                category=HarmCategory.HARM_CATEGORY_HATE_SPEECH,
                threshold=HarmBlockThreshold.BLOCK_NONE,
            ),
            SafetySetting(
                category=HarmCategory.HARM_CATEGORY_HARASSMENT,
                threshold=HarmBlockThreshold.BLOCK_NONE,
            ),
        ]
    )
    return response

# 示例用法
if __name__ == "__main__":
    example_prompt = "请描述以下文本内容：{}"
    # 假设这里有一个可能触发安全审查的文本
    example_text = "一个关于争议性事件的描述，可能包含敏感词汇。" 

    try:
        # 调用自定义安全设置的函数
        gemini_response = get_gemini_response_with_custom_safety(example_prompt, example_text)
        print("Gemini Pro 响应内容：")
        for part in gemini_response.candidates[0].content.parts:
            print(part.text)

        # 打印安全评分（即使设置为BLOCK_NONE，模型仍会返回评分）
        print("\n安全评分：")
        for rating in gemini_response.candidates[0].safety_ratings:
            print(f"  类别: {rating.category.name}, 概率: {rating.probability.name}")

    except Exception as e:
        print(f"调用Gemini Pro API时发生错误: {e}")

在这个示例中，我们创建了一个包含四个SafetySetting对象的列表，每个对象都明确指定了一个HarmCategory（如HARM_CATEGORY_SEXUALLY_EXPLICIT）和对应的HarmBlockThreshold.BLOCK_NONE。这意味着对于这些特定类别的有害内容，API将尝试不进行阻断。

注意事项与最佳实践

理解BLOCK_NONE的含义： 即使将阈值设置为BLOCK_NONE，模型仍然会对内容进行评估并返回安全评分。这表示API不会主动阻断该类别的内容，但如果内容被判定为极其有害或违反Google的服务条款，底层系统仍可能介入进行阻断。BLOCK_NONE旨在为开发者提供更大的灵活性，但并非完全取消内容审核。
谨慎调整安全设置： 根据您的应用场景和法律合规性要求，谨慎调整HarmBlockThreshold。除了BLOCK_NONE，还有其他阈值选项：
- BLOCK_ONLY_HIGH: 只阻断高概率有害内容。
- BLOCK_MEDIUM_AND_ABOVE: 阻断中等及以上概率的有害内容。
- BLOCK_LOW_AND_ABOVE: 阻断低等及以上概率的有害内容。选择合适的阈值，以平衡内容自由度和平台责任。
API版本兼容性： 请注意，vertexai库和google.cloud.aiplatform_v1beta1是Google Cloud AI Platform SDK的一部分。随着SDK版本的迭代，导入路径或类名可能会有细微变化。请始终查阅最新的官方文档以确保代码的兼容性。
错误处理： 即使正确配置了安全设置，仍然建议在代码中加入错误处理机制，捕获BlockedPromptException或其他可能的API异常，以便在内容确实被阻断时能进行优雅处理，例如提示用户修改输入或记录日志进行分析。
内容评估透明度： 即使内容未被阻断，GenerationResponse中仍然会包含safety_ratings信息。开发者可以利用这些评分来了解模型对内容的风险评估，从而在应用程序层面进行额外的过滤或提示。

总结

正确配置Gemini Pro API的安全设置是确保API稳定运行、有效管理内容输出的关键。通过导入SafetySetting、HarmCategory和HarmBlockThreshold等类，并以对象列表的形式传递给safety_settings参数，开发者可以精确控制每个有害类别的阻断阈值。理解这些设置的真正含义，并结合应用程序的需求进行谨慎调整，将有助于构建更健壮、更符合预期的AI应用。

如何在 DVC 中通过常量文件统一管理依赖与输出路径

如何使用DBSCAN算法从出租车GPS数据中识别乘客热点区域

如何使用DBSCAN算法基于出租车GPS数据识别乘客热点区域

如何在 Python 中启动并持久化运行一个 GNU Screen 会话

如何为 DataFrame 补齐起始缺失时间戳并完成插值与重采样