0

0

在 Databricks AutoML 中指定特征列

霞舞

霞舞

发布时间:2025-08-26 19:28:01

|

374人浏览过

|

来源于php中文网

原创

在 databricks automl 中指定特征列

本文档介绍了在使用 Databricks AutoML 和 Feature Store 时,如何正确地指定特征列。直接使用 Feature Store lookups 可能会导致问题,本文提供了一种通过创建训练集并加载 DataFrame 来解决此问题的方法,并展示了完整的代码示例和注意事项,帮助你成功运行 AutoML 实验。

使用 Feature Store 和 Databricks AutoML

Databricks AutoML 可以自动地进行模型选择、超参数调优和特征工程,从而简化机器学习流程。当结合 Databricks Feature Store 使用时,可以方便地将预先计算好的特征加入到训练数据中。然而,直接在 databricks.automl.regress 或 databricks.automl.classify 函数中使用 feature_store_lookups 参数时,可能会遇到一些问题,尤其是在需要精确控制哪些特征被包含时。

问题描述

直接将 Feature Store lookups 传递给 AutoML 函数时,feature_names 参数可能不会按照预期工作。此外,尝试使用 exclude_cols 排除来自 Feature Store lookup tables 的列也会失败。

解决方案:创建训练集并加载 DataFrame

解决这个问题的推荐方法是首先使用 Feature Store API 创建一个训练集,然后将该训练集加载为 DataFrame,最后将这个 DataFrame 传递给 AutoML 函数。

以下是详细步骤和代码示例:

  1. 定义 Feature Lookups:

首先,需要定义 FeatureLookup 对象,指定要从 Feature Store 中查找的特征。

from databricks import feature_store as fe

model_feature_lookups = [
    fe.FeatureLookup(
      table_name="lakehouse_in_action.favorita_forecasting.oil_10d_lag_ft",
      lookup_key="date",
      feature_names="lag10_oil_price"
    ),
    fe.FeatureLookup(
      table_name="lakehouse_in_action.favorita_forecasting.store_holidays_ft",
      lookup_key=["date","store_nbr"]
    ),
    fe.FeatureLookup(
      table_name="lakehouse_in_action.favorita_forecasting.stores_ft",
      lookup_key="store_nbr",
      feature_names=["cluster","store_type"]
    ),
]

注意:这里使用了 databricks.feature_store.FeatureLookup 而不是直接的字典。

Bika.ai
Bika.ai

打造您的AI智能体员工团队

下载
  1. 创建训练集:

使用 fe.create_training_set 函数创建训练集。这个函数需要原始数据 DataFrame、Feature Lookups 和目标列名。

training_set = fe.create_training_set(
    df=raw_data,
    feature_lookups=model_feature_lookups,
    label=label_name,
)
  1. 加载 DataFrame:

将训练集加载为 DataFrame,以便 AutoML 可以使用它。

training_df = training_set.load_df()
  1. 运行 AutoML:

现在,可以将加载的 DataFrame 传递给 AutoML 函数。

automl_data = training_df #.filter("date > '2016-12-31'") #Optional filter

summary = databricks.automl.regress(automl_data, 
                                    target_col=label_name,
                                    time_col="date",
                                    timeout_minutes=6,
                                    exclude_cols=['id']
                                    )

代码示例

以下是完整的代码示例:

from databricks import feature_store as fe

model_feature_lookups = [
    fe.FeatureLookup(
      table_name="lakehouse_in_action.favorita_forecasting.oil_10d_lag_ft",
      lookup_key="date",
      feature_names="lag10_oil_price"
    ),
    fe.FeatureLookup(
      table_name="lakehouse_in_action.favorita_forecasting.store_holidays_ft",
      lookup_key=["date","store_nbr"]
    ),
    fe.FeatureLookup(
      table_name="lakehouse_in_action.favorita_forecasting.stores_ft",
      lookup_key="store_nbr",
      feature_names=["cluster","store_type"]
    ),
]

training_set = fe.create_training_set(
    df=raw_data,
    feature_lookups=model_feature_lookups,
    label=label_name,
)
training_df = training_set.load_df()

automl_data = training_df #.filter("date > '2016-12-31'") #Optional filter

summary = databricks.automl.regress(automl_data, 
                                    target_col=label_name,
                                    time_col="date",
                                    timeout_minutes=6,
                                    exclude_cols=['id']
                                    )

注意事项

  • databricks.feature_store.FeatureLookup: 确保使用 databricks.feature_store.FeatureLookup 对象定义 Feature Lookups,而不是简单的字典。
  • 特征过滤: 在创建训练集时,可以使用 feature_names 参数来精确指定要包含的特征。
  • 数据过滤: 在将 DataFrame 传递给 AutoML 之前,可以对其进行过滤,例如按日期范围过滤。
  • 列排除: 可以使用 exclude_cols 参数排除不需要的列。
  • 时间限制: timeout_minutes 参数用于限制 AutoML 实验的运行时间。

总结

通过创建训练集并加载 DataFrame,可以更灵活地控制在使用 Databricks AutoML 和 Feature Store 时,哪些特征被包含在训练数据中。这种方法可以避免直接使用 feature_store_lookups 参数可能导致的问题,并允许你更好地利用 Feature Store 的优势。

相关专题

更多
excel制作动态图表教程
excel制作动态图表教程

本专题整合了excel制作动态图表相关教程,阅读专题下面的文章了解更多详细教程。

20

2025.12.29

freeok看剧入口合集
freeok看剧入口合集

本专题整合了freeok看剧入口网址,阅读下面的文章了解更多网址。

65

2025.12.29

俄罗斯搜索引擎Yandex最新官方入口网址
俄罗斯搜索引擎Yandex最新官方入口网址

Yandex官方入口网址是https://yandex.com;用户可通过网页端直连或移动端浏览器直接访问,无需登录即可使用搜索、图片、新闻、地图等全部基础功能,并支持多语种检索与静态资源精准筛选。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

197

2025.12.29

python中def的用法大全
python中def的用法大全

def关键字用于在Python中定义函数。其基本语法包括函数名、参数列表、文档字符串和返回值。使用def可以定义无参数、单参数、多参数、默认参数和可变参数的函数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

16

2025.12.29

python改成中文版教程大全
python改成中文版教程大全

Python界面可通过以下方法改为中文版:修改系统语言环境:更改系统语言为“中文(简体)”。使用 IDE 修改:在 PyCharm 等 IDE 中更改语言设置为“中文”。使用 IDLE 修改:在 IDLE 中修改语言为“Chinese”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

16

2025.12.29

C++的Top K问题怎么解决
C++的Top K问题怎么解决

TopK问题可通过优先队列、partial_sort和nth_element解决:优先队列维护大小为K的堆,适合流式数据;partial_sort对前K个元素排序,适用于需有序结果且K较小的场景;nth_element基于快速选择,平均时间复杂度O(n),效率最高但不保证前K内部有序。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

12

2025.12.29

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

134

2025.12.29

抖音网页版入口在哪(最新版)
抖音网页版入口在哪(最新版)

抖音网页版可通过官网https://www.douyin.com进入,打开浏览器输入网址后,可选择扫码或账号登录,登录后同步移动端数据,未登录仅可浏览部分推荐内容。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

63

2025.12.29

快手直播回放在哪看教程
快手直播回放在哪看教程

快手直播回放需主播开启功能才可观看,主要通过三种路径查看:一是从“我”主页进入“关注”标签再进主播主页的“直播”分类;二是通过“历史记录”中的“直播”标签页找回;三是进入“个人信息查阅与下载”里的“直播回放”选项。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

18

2025.12.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号