Python中的爬虫实战：酷我音乐爬虫

王林

发布时间：2023-06-09 23:43:35

4007人浏览过

来源于php中文网

原创

在互联网的时代，信息变得异常重要，数据成为价值的基石之一，而网络爬虫则是获取和处理数据的重要工具之一。python语言由于其简单易学、高效的特点，成为众多爬虫程序员的首选编程语言。在本文中，我们将通过一个实战案例，使用python语言来爬取酷我音乐网站的数据，并进行数据分析和处理。

酷我音乐是国内较为知名的音乐播放器之一，其拥有海量的音乐资源和用户群体。我们将以酷我音乐网站为例，介绍爬取数据的具体实现过程。

一、数据分析

在进行爬取之前，我们首先需要分析目标站点的网页结构和数据存储方式。通过打开酷我音乐的网页，可以发现其网页地址与音乐的ID有着明显的关联性，在网页地址后添加“/song/”和音乐的ID即可访问对应音乐的详细页面。

打开一首音乐的详细页面，发现其中有许多有价值的数据，包括歌曲名称、歌手、专辑、歌曲时长、播放量、评论数等等。而这些信息则以网页标签形式保存在HTML文件中。通过查看页面源码，可以发现相关信息大多数藏在class为“__songinfo__”和“__detailed_info clearfix__”的标签中。

立即学习“Python免费学习笔记（深入）”；

二、爬虫实现

爬虫的核心是爬取数据，我们将数据爬取和保存分别实现。

数据爬取

我们需要定义一个函数，接收包含音乐ID的列表，访问对应音乐的页面并爬取其中有用的信息。具体实现如下：

import requests
from bs4 import BeautifulSoup

def get_music_info(musicids):
    musicinfo = []
    for musicid in musicids:
        url = 'http://www.kuwo.cn/play_detail/' + str(musicid)
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
        response = requests.get(url, headers=headers)
        response.encoding = response.apparent_encoding
        soup = BeautifulSoup(response.text, 'html.parser')

        music_title = soup.find('h1', class_='info_tit').text.strip() # 歌曲名称
        artist = soup.find('p', class_='name').text.strip() # 歌手
        album = soup.find('a', class_='sname').text.strip() # 专辑
        duration = soup.find('span', class_='hilight').text.strip() # 歌曲时长
        play_counts = soup.find('em', class_='num').text.strip() # 播放量
        comments_counts = soup.find('em', class_='sub').text.strip() # 评论数

        musicinfo.append([musicid, music_title, artist, album, duration, play_counts, comments_counts])
        print('正在爬取音乐《{}》信息'.format(music_title))
    return musicinfo

以上代码使用requests库和BeautifulSoup库请求网页并解析HTML文件，获取有用的标签信息。其中，headers为模拟Chrome浏览器访问的伪装头部，防止被服务器屏蔽。

2.数据保存

我们将爬取到的数据保存为CSV格式，在使用前需要先导入CSV库：

import csv

然后，我们需要定义一个保存数据的函数，将爬取到的音乐信息，按照CSV格式正确的形式保存到本地文件中，具体实现如下：

def save_csv(save_path, data_list):
    with open(save_path, 'w', newline='') as f:
        writer = csv.writer(f)
        writer.writerow(['歌曲ID', '歌曲名称', '歌手', '专辑', '歌曲时长', '播放量', '评论数'])
        writer.writerows(data_list)
    print("数据已保存至{}".format(save_path))

以上代码使用CSV库中的writer()方法，将音乐信息写入文件。需要注意的是，CSV文件中的文件分隔符为逗号，写入文件时，需要使用newline=''修复行之间的空白行。

三、数据分析

InsCode

InsCode 是CSDN旗下的一个无需安装的编程、协作和分享社区

下载

完成数据爬取和保存后，我们可以开始对数据进行分析和处理。在Python语言中， pandas和matplotlib等库能够方便地实现数据分析和可视化。

1.导入库

数据分析主要使用pandas和matplotlib库，因此，我们需要使用以下代码导入相关库：

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

2.读取文件

我们可以使用pandas库中的read_csv()函数，将保存的CSV文件读取到DataFrame中，具体实现如下：

music_data = pd.read_csv('music_data.csv')

3.数据筛选和排序

我们可以使用pandas中的sort_values()方法，按照播放量play_counts对数据进行降序排列，并使用head()方法，仅保留前20个数据。

top_20_play_counts = music_data.sort_values('播放量', ascending=False).head(20)

4.数据可视化

使用matplotlib库实现数据可视化，才能更加清晰的了解数据之间的关系和趋势。我们可以使用以下代码，绘制出酷我音乐播放量排名前20的音乐曲线图。

plt.figure(figsize=(20, 8)) # 设置图像大小
sns.lineplot(x='歌曲名称', y='播放量', data=top_20_play_counts) # 绘制曲线图
plt.xticks(rotation=90, fontsize=14) # 调整x轴刻度大小和旋转角度
plt.yticks(fontsize=14) # 调整y轴刻度大小
plt.xlabel('歌曲名称', fontsize=16) # 坐标轴标题
plt.ylabel('播放量', fontsize=16)
plt.title('酷我音乐播放量排名前20的歌曲', fontsize=20) # 图像标题
plt.show() # 显示图像

通过以上代码，我们可以更直观地了解酷我音乐播放量排名前20的歌曲的播放量趋势。

四、总结

本文通过一个实际案例，详细地讲述了Python语言在爬虫实战中的使用。通过分析网页结构和数据存储方式，并使用requests和BeautifulSoup库进行数据爬取，最终使用pandas和matplotlib库进行数据分析和可视化。希望能够在实践中，更好的了解Python语言在爬虫领域中的应用。

如何用 Python 唤醒休眠显示器以显示 Tkinter 警报窗口

如何高效检查字典中字符串字段是否包含用户输入的多个姓名

高效导入海量 MariaDB 数据到 Python：低内存占用的流式处理方案

Python 高并发网络服务为何偏向 asyncio？

如何正确理解 Python 字典的返回与显示行为

python速学教程(入门到精通)

python怎么学习？python怎么入门？python在哪学？python怎么学才快？不用担心，这里为大家提供了python速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

java多线程相关教程合集

本专题整合了java多线程相关教程，阅读专题下面的文章了解更多详细内容。

2026.01.21

windows激活码分享 windows一键激活教程指南

Windows 10/11一键激活可以通过PowerShell脚本或KMS工具实现永久或长期激活。最推荐的简便方法是打开PowerShell（管理员），运行 irm https://get.activated.win | iex 脚本，按提示选择数字激活（选项1）。其他方法包括使用HEU KMS Activator工具进行智能激活。

2026.01.21

excel表格操作技巧大全表格制作excel教程

Excel表格操作的核心技巧在于熟练使用快捷键、数据处理函数及视图工具，如Ctrl+C/V（复制粘贴）、Alt+=（自动求和）、条件格式、数据验证及数据透视表。掌握这些可大幅提升数据分析与办公效率，实现快速录入、查找、筛选和汇总。

2026.01.21

毒蘑菇显卡测试网站入口毒蘑菇测试官网volumeshader_bm

毒蘑菇VOLUMESHADER_BM测试网站网址为https://toolwa.com/vsbm/，该平台基于WebGL技术通过渲染高复杂度三维分形图形评估设备图形处理能力，用户可通过拖动彩色物体观察画面流畅度判断GPU与CPU协同性能；测试兼容多种设备，但中低端手机易卡顿或崩溃，高端机型可能因发热降频影响表现，桌面端需启用独立显卡并使用支持WebGL的主流浏览器以确保准确结果

2026.01.21

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

2026.01.21

windows安全中心怎么关闭打开_windows安全中心操作指南

Windows安全中心可以通过系统设置轻松开关。暂时关闭：打开“设置” -> “隐私和安全性” -> “Windows安全中心” -> “病毒和威胁防护” -> “管理设置”，将“实时保护”关闭。打开：同样路径将开关开启即可。如需彻底关闭，需在组策略(gpedit.msc)或注册表中禁用Windows Defender。

2026.01.21

C++游戏开发Unreal Engine_C++怎么用Unreal Engine开发游戏

虚幻引擎（Unreal Engine, 简称UE）是由Epic Games开发的一款功能强大的工业级3D游戏引擎，以高品质实时渲染（如Nanite和Lumen）闻名。它基于C++语言，为开发者提供高效率的框架、强大的可视化脚本系统（蓝图）、以及针对PC、主机和移动端的完整开发工具，广泛用于游戏、电影制片等领域。

2026.01.21

Python GraphQL API 开发实战

本专题系统讲解 Python 在 GraphQL API 开发中的实际应用，涵盖 GraphQL 基础概念、Schema 设计、Query 与 Mutation 实现、权限控制、分页与性能优化，以及与现有 REST 服务和数据库的整合方式。通过完整示例，帮助学习者掌握使用 Python 构建高扩展性、前后端协作友好的 GraphQL 接口服务，适用于中大型应用与复杂数据查询场景。

2026.01.21