0

0

负责任的机器学习--“玻璃盒”方法

王林

王林

发布时间:2023-04-09 12:21:03

|

1330人浏览过

|

来源于51CTO.COM

转载

​译者 | 崔皓

审校 | 孙淑娟

开篇

机器学习并不是一项深奥的技术。正如在复杂的深度神经网络中多参数和超参数的方法只是认知计算的一种表现形式,看上去也没有那么深奥。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

负责任的机器学习--“玻璃盒”方法

还存在其他一些机器学习的种类(一些涉及到深度神经网络),这类机器学习的模型结果、模型的确定以及影响模型的复杂性都表现得非常透明。

所有这些都取决于组织对其数据来源的理解程度。 

换句话说,需要了解从模型训练数据到生产数据模型过程中的一切。这也是解释、改进和改进其结果不可或缺的部分。通过这种方式让组织极大地提升模型的商业价值。

更重要的是,还进一步提高了这项技术的公平性、问责性和透明度,对于整个社会而言也更加可靠、更加完善。

Databricks营销副总裁Joel Minnick承认:“这就是为什么您需要对数据的上游和下游进行细粒度的了解,以便能够负责任地进行机器学习。”

为数据沿袭编制目录

针对模型的数据训练和数据生成会涉及到数据源、数据转换、数据集成等多项技术。在成熟的数据目录方案中,可以实现数据的实时捕获,因此可以随时监控进度从而了解模型的执行进度。“它能让我清楚了解在模型中使用数据的上下文情况。同时,你还可以知道,这些数据是从哪里来的?我们从中获得了哪些其他数据?它是什么时候产生的?这样我就可以更好地理解我应该如何使用这些数据”,数据科学家Minnick 如是说。

“数据沿袭”(记录数据源头、移动、处理过程)由元数据组成,而数据目录用来存储有关数据集。目录还使用户能够将标签和其他描述符作为附加元数据,其可以帮助追溯数据来源和建立数据信任。正如 Minnick 所描述的“数据沿袭”可以生成“API 驱动的服务”,通过这些服务连接一系列平台(包括数据科学家平台、数据工程师平台和终端用户平台)。

UP简历
UP简历

基于AI技术的免费在线简历制作工具

下载

数据治理:为数据科学而生

数据训练和数据操作的可追溯性提升会影响到机器学习模型结果,而模型结果又和数据科学领域中的数据治理息息相关。因此,数据治理和创建、部署模型的数据科学平台存在千丝万缕的联系。“技能管理表格和文件,又能管理笔记本,同时还可以管理仪表盘。这是管理生产和消费数据的现代方式。”Minnick 评论道。 对于在笔记本中构建模型的数据科学家和通过仪表板监控输出结果的数据科学家来说,对上述说法深以为然。

清晰且透明 

尽管如此,简单地通过 API 连接数据科学工具平台,从而获取“数据沿袭”只是透明利用机器学习的一个方面。为了达到改进模型的输出目的,还需要通过数据沿袭中确定的内容来对输出模型进行校准。例如,如何让可追溯性模型数据使数据科学家“能够理解一旦一些数据出现问题,就可以分离出这部分数据,”Minnick 指出。

从逻辑上讲,可以利用这些知识了解为什么特定数据类型存在问题,从而纠正它们或通过完全删除它们来提高模型的准确性。根据 Minnick 的说法,越来越多的组织正意识到将“数据沿袭”应用到模型结果的好处,“部分原因是机器学习和人工智能在当今各个行业的兴起。它变得越来越普遍。去年,我们发布 AutoML 产品时,就是使用了“玻璃盒”来代表对数据来源的透明。”

监管后果以及其他 

一些组织还利用“数据沿袭”提供的自适应认知计算模型的能力,来增强其法规遵从能力。金融、医疗保健等行业受到高度监管,要求公司清楚地说明他们是如何为客户做出决策的。数据追溯为构建机器学习模型和理解模型结果创建了一张路线图——这对监管机构的合规性非常宝贵。

这些信息还有助于内部审计,使公司能够了解他们在哪些监管领域失职,以便可以纠正问题以防止违规。“能够向监管机构展示非常精细的数据沿袭信息,不仅是跨表格,而且可以在广泛的组织的任何地方使用这些数据,这非常重要,”Minnick 断言。当这一优势与数据来源提高模型准确性的思路不谋而合,这种方法很可能将成为部署该技术的最佳实践。

译者介绍

崔皓,51CTO社区编辑,资深架构师,拥有18年的软件开发和架构经验,10年分布式架构经验。曾任惠普技术专家。乐于分享,撰写了很多热门技术文章,阅读量超过60万。《分布式架构原理与实践》作者。

原文标题:A “Glass Box” Approach to Responsible Machine Learning​,作者:Jelani Harper​

相关专题

更多
Java 桌面应用开发(JavaFX 实战)
Java 桌面应用开发(JavaFX 实战)

本专题系统讲解 Java 在桌面应用开发领域的实战应用,重点围绕 JavaFX 框架,涵盖界面布局、控件使用、事件处理、FXML、样式美化(CSS)、多线程与UI响应优化,以及桌面应用的打包与发布。通过完整示例项目,帮助学习者掌握 使用 Java 构建现代化、跨平台桌面应用程序的核心能力。

36

2026.01.14

php与html混编教程大全
php与html混编教程大全

本专题整合了php和html混编相关教程,阅读专题下面的文章了解更多详细内容。

18

2026.01.13

PHP 高性能
PHP 高性能

本专题整合了PHP高性能相关教程大全,阅读专题下面的文章了解更多详细内容。

34

2026.01.13

MySQL数据库报错常见问题及解决方法大全
MySQL数据库报错常见问题及解决方法大全

本专题整合了MySQL数据库报错常见问题及解决方法,阅读专题下面的文章了解更多详细内容。

19

2026.01.13

PHP 文件上传
PHP 文件上传

本专题整合了PHP实现文件上传相关教程,阅读专题下面的文章了解更多详细内容。

16

2026.01.13

PHP缓存策略教程大全
PHP缓存策略教程大全

本专题整合了PHP缓存相关教程,阅读专题下面的文章了解更多详细内容。

6

2026.01.13

jQuery 正则表达式相关教程
jQuery 正则表达式相关教程

本专题整合了jQuery正则表达式相关教程大全,阅读专题下面的文章了解更多详细内容。

3

2026.01.13

交互式图表和动态图表教程汇总
交互式图表和动态图表教程汇总

本专题整合了交互式图表和动态图表的相关内容,阅读专题下面的文章了解更多详细内容。

45

2026.01.13

nginx配置文件详细教程
nginx配置文件详细教程

本专题整合了nginx配置文件相关教程详细汇总,阅读专题下面的文章了解更多详细内容。

5

2026.01.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
CSS3 教程
CSS3 教程

共18课时 | 4.5万人学习

PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.1万人学习

Git 教程
Git 教程

共21课时 | 2.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号