在 Databricks AutoML 中指定特征列的方法

心靈之曲

发布时间：2025-08-26 19:30:02

388人浏览过

来源于php中文网

原创

在 databricks automl 中指定特征列的方法

本文档介绍了在使用 Databricks AutoML 与 Feature Store 结合时，如何正确指定特征列。当直接将 Feature Store lookups 传递给 databricks.automl.regress 或 databricks.automl.classify 函数时，可能会遇到问题，特别是当你只想使用 Feature Table 中的部分特征时。本文提供了一种解决方案，通过使用 fe.create_training_set 和 training_set.load_df() 来创建训练数据集，从而允许你在 AutoML 中指定要使用的特征列。

使用 Feature Store 创建训练数据集并应用于 AutoML

在使用 Databricks AutoML 时，如果你的数据依赖于 Feature Store，并且你希望精确控制哪些特征列被用于训练，直接将 Feature Store lookups 传递给 AutoML 函数可能无法满足需求。这是因为 AutoML 的 regress 和 classify 函数在直接使用 feature_store_lookups 参数时，可能无法让你指定要包含的特征名称，并且排除列的功能可能不适用于 Feature Store 的列。

解决此问题的推荐方法是首先使用 Feature Store 的 API 创建一个训练数据集，然后将该数据集加载到 DataFrame 中，最后将该 DataFrame 传递给 AutoML 函数。

以下步骤展示了如何实现这一目标：

定义 Feature Lookups:

首先，你需要定义一个 FeatureLookup 对象的列表，用于指定要从 Feature Store 中查找的特征。这些对象指定了 Feature Table 的名称、查找键以及要包含的特征名称。

from databricks import feature_store as fe
from databricks.feature_store import FeatureLookup

model_feature_lookups = [
    FeatureLookup(
      table_name="lakehouse_in_action.favorita_forecasting.oil_10d_lag_ft",
      lookup_key="date",
      feature_names="lag10_oil_price"
    ),
    FeatureLookup(
      table_name="lakehouse_in_action.favorita_forecasting.store_holidays_ft",
      lookup_key=["date","store_nbr"]
    ),
    FeatureLookup(
      table_name="lakehouse_in_action.favorita_forecasting.stores_ft",
      lookup_key="store_nbr",
      feature_names=["cluster","store_type"]
    ),
]

请注意，feature_names 参数允许你指定要从每个 Feature Table 中包含的特定特征。

创建训练数据集:

使用 fe.create_training_set 函数创建一个训练数据集。此函数接受原始数据 DataFrame、FeatureLookup 对象的列表以及目标列的名称。

Wegic
AI网页设计和开发工具

下载
```
training_set = fe.create_training_set(
    df=raw_data,
    feature_lookups=model_feature_lookups,
    label=label_name,
)
```
加载 DataFrame:

使用 training_set.load_df() 方法将训练数据集加载到 DataFrame 中。此 DataFrame 包含原始数据以及从 Feature Store 中查找的特征。
```
training_df = training_set.load_df()
```

运行 AutoML:

现在，你可以将加载的 DataFrame 传递给 databricks.automl.regress 或 databricks.automl.classify 函数。你还可以使用 exclude_cols 参数排除不需要的列。

automl_data = training_df.filter("date > '2016-12-31'") # Optional: Filter data for faster execution

summary = databricks.automl.regress(automl_data,
                                    target_col=label_name,
                                    time_col="date",
                                    timeout_minutes=6,
                                    exclude_cols=['id']
                                    )

注意: exclude_cols 参数用于排除原始数据中的列，而不是 Feature Store 中查找的列。

示例代码

以下是完整的示例代码，展示了如何使用 Feature Store 创建训练数据集并将其应用于 AutoML：

from databricks import feature_store as fe
from databricks.feature_store import FeatureLookup

# 1. Define Feature Lookups
model_feature_lookups = [
    FeatureLookup(
      table_name="lakehouse_in_action.favorita_forecasting.oil_10d_lag_ft",
      lookup_key="date",
      feature_names="lag10_oil_price"
    ),
    FeatureLookup(
      table_name="lakehouse_in_action.favorita_forecasting.store_holidays_ft",
      lookup_key=["date","store_nbr"]
    ),
    FeatureLookup(
      table_name="lakehouse_in_action.favorita_forecasting.stores_ft",
      lookup_key="store_nbr",
      feature_names=["cluster","store_type"]
    ),
]

# 2. Create Training Dataset
training_set = fe.create_training_set(
    df=raw_data,
    feature_lookups=model_feature_lookups,
    label=label_name,
)

# 3. Load DataFrame
training_df = training_set.load_df()

# 4. Run AutoML
automl_data = training_df.filter("date > '2016-12-31'") # Optional: Filter data for faster execution

summary = databricks.automl.regress(automl_data,
                                    target_col=label_name,
                                    time_col="date",
                                    timeout_minutes=6,
                                    exclude_cols=['id']
                                    )

注意事项

确保你已正确安装和配置了 Databricks Feature Store SDK。
在 FeatureLookup 对象中，lookup_key 必须与原始数据 DataFrame 和 Feature Table 中的键列名称匹配。
feature_names 参数允许你选择要从 Feature Table 中包含的特定特征。如果省略 feature_names，则将包含 Feature Table 中的所有特征。
exclude_cols 参数仅用于排除原始数据中的列，而不是 Feature Store 中查找的列。
根据数据量和计算资源，调整 timeout_minutes 参数以获得最佳 AutoML 运行时间。

总结

通过使用 Feature Store API 创建训练数据集，你可以更灵活地控制哪些特征被用于 Databricks AutoML 训练。这种方法允许你指定要包含的特征名称，并避免因包含不需要的列而导致的问题。按照本文档中的步骤，你可以有效地将 Feature Store 集成到你的 AutoML 工作流程中，并获得更好的模型性能。

Python构建毕业设计级AI项目的高质量实现方式【教程】

Python在AI项目中的特征工程构建全步骤讲解【技巧】

可视化从零到精通模型部署的实践方法【教程】

Python搭建AI问答系统的模型训练与应用方案【指导】

Python如何构建稳定可扩展的AI模型推理服务系统【教学】

相关专题

excel制作动态图表教程

本专题整合了excel制作动态图表相关教程，阅读专题下面的文章了解更多详细教程。

2025.12.29

freeok看剧入口合集

本专题整合了freeok看剧入口网址，阅读下面的文章了解更多网址。

2025.12.29

俄罗斯搜索引擎Yandex最新官方入口网址

Yandex官方入口网址是https://yandex.com；用户可通过网页端直连或移动端浏览器直接访问，无需登录即可使用搜索、图片、新闻、地图等全部基础功能，并支持多语种检索与静态资源精准筛选。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

197

2025.12.29

python中def的用法大全

def关键字用于在Python中定义函数。其基本语法包括函数名、参数列表、文档字符串和返回值。使用def可以定义无参数、单参数、多参数、默认参数和可变参数的函数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2025.12.29

python改成中文版教程大全

Python界面可通过以下方法改为中文版：修改系统语言环境：更改系统语言为“中文（简体）”。使用 IDE 修改：在 PyCharm 等 IDE 中更改语言设置为“中文”。使用 IDLE 修改：在 IDLE 中修改语言为“Chinese”。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2025.12.29

C++的Top K问题怎么解决

TopK问题可通过优先队列、partial_sort和nth_element解决：优先队列维护大小为K的堆，适合流式数据；partial_sort对前K个元素排序，适用于需有序结果且K较小的场景；nth_element基于快速选择，平均时间复杂度O(n)，效率最高但不保证前K内部有序。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2025.12.29