0

0

格式化和清洗数据的 Python 工具包

大家讲道理

大家讲道理

发布时间:2016-11-08 10:23:14

|

1607人浏览过

|

来源于php中文网

原创

世界很杂乱,来自现实世界的数据也一样杂乱。近来一份调查报告显示数据科学家60%的时间都花在整理数据上。不幸的是,57%的人认为这是工作中最头疼的一部分。

整理数据非常消耗时间,不过也有许多工具被开发出来让这关键的一步变得稍微可以忍受。Python 社区提供了许多库让数据变得清晰有序——从格式化 DataFrame 到匿名化数据集。

告诉我们你觉得有用的库——我们一直致力于优化放入Mode Python Notebooks中的库。

python-data-cleaning-libraries.png

立即学习Python免费学习笔记(深入)”;

Dora

Dora是为探索性分析而设计的。特别是自动化分析中最痛苦的部分——比如特征选取和提取,可视化,还有你能猜到的——数据清洁。数据清洁相关的函数可以:

读取含有缺失数据和没有标准化的数据表

给缺失数据赋值

标准化变量

开发者:Nathan Epstein
更多资料:https://github.com/NathanEpstein/Dora

datacleaner

号外号外,datacleaner 清洗你的数据——不过只有在你的数据是 pandas DataFrame 实例的时候。开发者Randy Olson说:“datacleaner 不是魔法,它无法神奇的解析你没有结构的数据。”

它可以删除含有缺失数据的行,或者利用列的众数或中位数填充缺失数据,将非数值型变量转化为数值型变量。这个库很新,但考虑到DataFrame 是 Python 数据分析的基本数据结构,这个库还是值得试试看的。

开发者:Randy Olson
更多资料:https://github.com/rhiever/datacleaner

PrettyPandas

DataFrame 很强大,但是它们无法制作出你可以直接给你的老板看的表。PrettyPandas 利用了pandas 风格 API 将 DataFrame 转换成可以演示的表格。产生数据摘要,设置风格,调整数据格式,列和行。附加福利:强健,可读性高的使用文档。

开发者:Henry Hammond
更多资料:https://github.com/HHammond/PrettyPandas

tabulate

tabulate 可以让你仅仅用一个函数调用生成小型耐看的表格。非常适合于通过调整小数点列对齐,数据格式,表头和其他让表格可读性更高。

它有一个超酷的功能是可以让表格输出成不同的格式:HTML, PHP 或者 Markdown Extra,这样你可以用其他的工具或语言继续在使用你已经表格化的数据。

开发者: Sergey Astanin
更多资料:https://pypi.python.org/pypi/tabulate

scrubadub

BibiGPT-哔哔终结者
BibiGPT-哔哔终结者

B站视频总结器-一键总结 音视频内容

下载

健康领域和金融领域的数据科学家常需要匿名化数据集。scrubadub可以将 私人信息 (PII) 从文本从移除。例如:

姓名 (名词)

Email地址

网络链接

电话号码

用户名/密码组

Skype 用户名

社会保险号

文档很好的演示了通过哪些途径你可以自定义 scrubadub 的行为,例如定义新的 PII 或者保留特定的 PII。

开发者:Datascope Analytics
更多资料:http://scrubadub.readthedocs.io/en/stable/index.html

Arrow

让我们实话实说:在 Python 里处理日期和时间是很痛苦的。当地时区无法被自动识别。得用好几行不那么让人舒服的代码来转换时区和时间戳。

Arrow 旨于解决这个问题并且填补这个功能空白,从而让你可以用更少的代码和引入库来完成对日期和时间的操作。跟 Python 的标准时间库不同的是,Arrow 默认自动识别时区和 UTC。你可以只用一行代码来完成时区转换或者分析时间字符串。

开发者:Chris Smith
更多资料:http://arrow.readthedocs.io/en/latest/

Beautifier

Beautifier 的任务很简单:清洗 URL 和 Email 地址并让它们看起来更漂亮。你可以通过域名和用户名来解析 email ; 通过域名和参数来解析URL。(UTM 或者标记)

开发者:Sachin Philip Mathew
更多资料:https://github.com/sachinvettithanam/beautifier

ftfy

ftfy (fixes text for you) takes in bad Unicode outputs good Unicode. Basically, it fixes all the junk characters. â€œquotesâ€x9d becomes "quotes"; ü becomes ü; 

ftfy (fixes text for you)将杂乱的Unicode转化为可识别的Unicode。简单的说,它处理所有的垃圾字符。“quotesâ€x9d 变成 "quotes"; ü 变成 ü; 

开发者:Luminoso
更多资料:https://github.com/LuminosoInsight/python-ftfy

相关文章

python速学教程(入门到精通)
python速学教程(入门到精通)

python怎么学习?python怎么入门?python在哪学?python怎么学才快?不用担心,这里为大家提供了python速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
c++主流开发框架汇总
c++主流开发框架汇总

本专题整合了c++开发框架推荐,阅读专题下面的文章了解更多详细内容。

79

2026.01.09

c++框架学习教程汇总
c++框架学习教程汇总

本专题整合了c++框架学习教程汇总,阅读专题下面的文章了解更多详细内容。

46

2026.01.09

学python好用的网站推荐
学python好用的网站推荐

本专题整合了python学习教程汇总,阅读专题下面的文章了解更多详细内容。

121

2026.01.09

学python网站汇总
学python网站汇总

本专题整合了学python网站汇总,阅读专题下面的文章了解更多详细内容。

12

2026.01.09

python学习网站
python学习网站

本专题整合了python学习相关推荐汇总,阅读专题下面的文章了解更多详细内容。

15

2026.01.09

俄罗斯手机浏览器地址汇总
俄罗斯手机浏览器地址汇总

汇总俄罗斯Yandex手机浏览器官方网址入口,涵盖国际版与俄语版,适配移动端访问,一键直达搜索、地图、新闻等核心服务。

71

2026.01.09

漫蛙稳定版地址大全
漫蛙稳定版地址大全

漫蛙稳定版地址大全汇总最新可用入口,包含漫蛙manwa漫画防走失官网链接,确保用户随时畅读海量正版漫画资源,建议收藏备用,避免因域名变动无法访问。

370

2026.01.09

php学习网站大全
php学习网站大全

精选多个优质PHP入门学习网站,涵盖教程、实战与文档,适合零基础到进阶开发者,助你高效掌握PHP编程。

45

2026.01.09

php网站搭建教程大全
php网站搭建教程大全

本合集专为零基础用户打造,涵盖PHP网站搭建全流程,从环境配置到实战开发,免费、易懂、系统化,助你快速入门建站!

12

2026.01.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.6万人学习

Django 教程
Django 教程

共28课时 | 3万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号