答案:抓取招聘网站职位信息需合法合规,先确认目标平台robots协议,分析网页结构或API接口获取数据,优先处理动态加载的JSON接口,使用requests或Selenium发起请求,控制频率避免封禁,再通过pandas清洗并存储为CSV或Excel文件用于分析。

抓取招聘网站的职位信息是Python爬虫常见的实战应用场景。这类任务能帮助我们分析就业市场趋势、薪资分布或技能要求。但需要注意,所有操作必须遵守目标网站的robots协议和相关法律法规,避免对服务器造成过大压力或触碰法律红线。
明确目标与合法性确认
在动手写代码前,先确定要抓取的招聘平台(如智联招聘、前程无忧、BOSS直聘等),并查看其robots.txt文件内容,了解哪些页面允许爬取。部分网站明确禁止自动化采集行为,需谨慎评估风险。建议仅用于学习研究,并控制请求频率,添加合理延时。
分析网页结构与数据接口
现代招聘网站大多采用动态加载技术,直接抓取HTML源码可能无法获取完整数据。可通过浏览器开发者工具(F12)观察网络请求,重点查找XHR/Fetch类型的API接口。很多平台会通过JSON格式返回职位列表,这类接口更易解析且数据结构清晰。
常见分析步骤:
立即学习“Python免费学习笔记(深入)”;
- 打开目标职位搜索页,输入关键词(如“Python开发”)
- 切换到Network面板,筛选XHR请求,滚动页面触发更多加载
- 找到包含职位数据的接口URL,复制请求头中的Headers和Query参数
- 验证该接口是否需要登录态(Cookie)、Token或加密参数
编写爬虫核心逻辑
使用requests库发起HTTP请求,配合json解析响应数据。若接口受反爬机制限制(如验证码、滑块验证),则需考虑使用Selenium模拟浏览器操作。
基础代码示例:
import requests import time import jsonheaders = { 'User-Agent': 'Mozilla/5.0', 'Referer': 'https://www.php.cn/link/2f7eaf16eceec07fc19c93090e90033a' }
def fetch_jobs(keyword, page): url = "https://www.php.cn/link/e7a7ba56b1be30e178cd52820e063396" params = { 'keyword': keyword, 'page': page, 'city': '北京' } try: response = requests.get(url, headers=headers, params=params) if response.status_code == 200: return response.json() else: print(f"请求失败:{response.status_code}") return None except Exception as e: print(f"异常:{e}") return None
调用示例
data = fetch_jobs("Python", 1) if data: for job in data['result']: print(job['title'], job['salary'], job['company']) time.sleep(1) # 控制频率
数据清洗与存储
原始数据常包含多余字段或不一致格式(如薪资“10k-15k”需转为数字范围)。可使用pandas进行标准化处理,并保存为CSV或Excel文件便于后续分析。
简单存储示例:
import pandas as pdjobs_list = [] for page in range(1, 6): result = fetch_jobs("Python", page) if result: jobs_list.extend(result['result']) time.sleep(2)
df = pd.DataFrame(jobs_list) df.to_csv('python_jobs.csv', index=False, encoding='utf_8_sig')
基本上就这些。关键是理解目标网站的数据加载方式,合法合规地获取信息。对于有强反爬策略的平台,不建议强行突破,可改用公开API或调整研究方向。










