0

0

数据科学通识第四讲:数据采集

星夢妙者

星夢妙者

发布时间:2025-09-08 08:07:28

|

467人浏览过

|

来源于php中文网

原创

数据采集,也被称为数据收集,指的是根据系统和用户的需求来获取相关数据的过程。

数据采集的历史可以追溯到远古时代,当时人们通过在绳子上打结来记录数字。到了19世纪,1887年,美国统计学家霍尔曼·霍尔瑞斯发明了一台能够读取卡片上孔洞的电动机器,利用这台设备,美国仅用一年时间便完成了原本需要八年的全国人口普查工作。

数据科学通识第四讲:数据采集进入20世纪,数据采集的重要性更加凸显。例如,1934年至1937年间,美国总统罗斯福启动了一项数据收集计划,整理了2600万员工和300万雇主的记录,这些数据为社会保障法的实施提供了基础。

数据科学通识第四讲:数据采集到了21世纪,数据采集进一步发展。2009年,印度政府成立了唯一身份识别管理部门,对12亿印度人的指纹、照片和虹膜等个人特征进行了采集,并为每个人分配了12位数字的ID号码,这些数据汇集成当时世界上最大的生物识别数据库。

数据采集的意义在于它是大数据分析的首要环节,后续的数据存储、清洗、分析和应用都依赖于数据采集。

数据科学通识第四讲:数据采集数据采集在各个领域都有广泛应用。例如,旅游行业通过收集相关信息来优化出行策略;电子商务领域通过对商品信息进行采集和分析,构建比价系统;银行通过收集用户的交易数据来评估征信贷款。此外,金融、招聘和舆情分析领域也高度依赖数据采集。

行业 信息源 应用 旅游 各类信息 优化出行策略 电商 商品信息 比价系统 游戏 游戏论坛 调整游戏运营 银行 个人交易信息 征信系统/贷款评级 金融 金融新闻/数据 制定投资策略,量化交易 招聘 职位信息 岗位信息 舆情 各大论坛 社会群体感知

数据采集的方法包括人工采集、传感器采集、系统日志采集和网络爬虫采集。

数据科学通识第四讲:数据采集1.人工采集是最传统的数据采集方法,其中普查是最古老的形式。早在2200多年前的西汉时期,中国就进行了第一次人口普查,这是早期人工数据采集的典范。

数据科学通识第四讲:数据采集1895年,学术界提出了抽样调查方法,并在随后的30多年内不断完善,使其成为一种更及时、经济的数据采集方法,广泛应用于经济、社会和科学研究领域,至今仍非常有效。

数据科学通识第四讲:数据采集2.传感器采集在日常生活中广泛应用,例如手机中的各种传感器,如重力感应传感器用于屏幕旋转,加速度传感器用于微信的摇一摇功能,光线传感器用于自动调整屏幕亮度,三轴陀螺仪用于第一人称射击和赛车游戏,GPS和电子罗盘用于电子地图和导航。

数据科学通识第四讲:数据采集常见的传感器还包括光敏传感器、声敏传感器、气敏传感器、压敏传感器、温敏传感器和流体传感器,这些传感器能够感知并转换相应的信号为电信号。

数据科学通识第四讲:数据采集在气象领域,气象站设备YT-QX08通过各种传感器感知温度、湿度、风向、风速、雨量、光照强度、总辐射和气压等信息,并将这些信息转换为电信号,方便处理和传输。

EasySite
EasySite

零代码AI网站开发工具

下载

数据科学通识第四讲:数据采集移动传感器作为移动大数据的信息采集端,呈现小型化和可穿戴的特点,如陀螺仪、加速度计和磁力计等,为数据库提供必要的信息。

数据科学通识第四讲:数据采集3.系统日志采集记录系统中的硬件、软件和系统问题信息,同时监视系统事件,用户通过分析系统日志可以检查错误原因或追踪攻击痕迹。许多互联网公司每天产生大量的日志,这些通常是流式数据,如搜索引擎的页面浏览量和查询量。

数据科学通识第四讲:数据采集美团日志的聚合页面展示了日志的类型、时间、URL地址和请求头等信息。

下图展示的是Windows操作系统的系统日志,记录了Windows的事件日志、服务器的IS日志、FTP日志和数据库日志等,这些日志在处理应急事件和提供溯源信息时扮演重要角色。

数据科学通识第四讲:数据采集Windows系统的事件日志以特定数据结构存储,包括系统安全应用程序的记录,每个记录包含日志、时间、事件类型、用户、计算机信息、事件ID、事件来源、类别、描述和相关数据等元素。

许多企业的应用系统每天产生大量日志,通过分析这些日志,可以帮助企业了解用户情况、设备运行和安全状态,提升服务能力、营销策略和实现智能运维及统一管控。

数据科学通识第四讲:数据采集4.网络爬虫(Web Crawler或Web Spider)是实现互联网数据采集的主要方式,通过自动下载网页并提取所需信息。根据爬取内容的规模,网络爬虫分为小规模、中规模和大规模三类,小规模适用于爬取网页,中规模适合爬取系列网站,大规模适用于全网爬取。

数据科学通识第四讲:数据采集网络爬虫的主要对象包括新闻、社交、购物网站以及API、用户接口和流式数据,如视频弹幕数据。

数据科学通识第四讲:数据采集网站数据仍然是网络爬虫的主要对象。

数据科学通识第四讲:数据采集

相关专题

更多
treenode的用法
treenode的用法

​在计算机编程领域,TreeNode是一种常见的数据结构,通常用于构建树形结构。在不同的编程语言中,TreeNode可能有不同的实现方式和用法,通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

536

2023.12.01

C++ 高效算法与数据结构
C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化,涵盖排序算法(快速排序、归并排序)、查找算法、图算法、动态规划、贪心算法等,并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构(链表、树、堆、哈希表等),帮助开发者提升 在复杂应用中的算法设计与性能优化能力。

17

2025.12.22

深入理解算法:高效算法与数据结构专题
深入理解算法:高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念,适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用,如数组、链表、栈、队列、哈希表、树、图等;以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析,帮助开发者不仅能熟练运用这些基础知识,还能在实际编程中优化性能,提高代码的执行效率。本专题适合准备面试的开发者,也适合希望提高算法思维的编程爱好者。

22

2026.01.06

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1049

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

86

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

456

2025.12.29

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

11

2026.01.19

windows查看端口占用情况
windows查看端口占用情况

Windows端口可以认为是计算机与外界通讯交流的出入口。逻辑意义上的端口一般是指TCP/IP协议中的端口,端口号的范围从0到65535,比如用于浏览网页服务的80端口,用于FTP服务的21端口等等。怎么查看windows端口占用情况呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

643

2023.07.26

Golang 性能分析与pprof调优实战
Golang 性能分析与pprof调优实战

本专题系统讲解 Golang 应用的性能分析与调优方法,重点覆盖 pprof 的使用方式,包括 CPU、内存、阻塞与 goroutine 分析,火焰图解读,常见性能瓶颈定位思路,以及在真实项目中进行针对性优化的实践技巧。通过案例讲解,帮助开发者掌握 用数据驱动的方式持续提升 Go 程序性能与稳定性。

0

2026.01.22

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号