0

0

[Python] 从 Chitaru 网站接收新闻的脚本

心靈之曲

心靈之曲

发布时间:2024-11-22 08:00:17

|

472人浏览过

|

来源于dev.to

转载

[python] 从 chitaru 网站接收新闻的脚本

使用 python 从 chita.ru 接收新闻

主要受到python脚本的启发,用于新闻解析、文本切分统计分析和词云生成,并在csdn平台的项目中实现。我还编写了自己的脚本,以更准确地对与人工智能和机器学习方面相关的复杂新闻进行分类。我尝试过,但工作量太大了,结果发现使用新闻门户chita.ru中现有的分类会更容易。鉴于上述文章中的源代码难以阅读,并且其中包含词云等额外库,很难使其跨平台,所以我决定编写自己的脚本。

云枫企业网站源代码第三版1.0
云枫企业网站源代码第三版1.0

云枫工作室企业网站Version3.0是由云枫工作室独立开发的一个适用于普通企业的网站展示系统.系统环境:asp+access(注:网站风格是与其它版本不相同的,并不是其它版本的升级版)网站功能主要有新闻管理系统、信息管理系统、产品管理系统、人才招聘管理、友情链接管理、通讯信息管理、留言信息管理使用步骤1、把网站源代码拷贝到服务器空间的根目录下。(注:服务器空间需支持ASP脚本运行)2、网站后台地

下载
此脚本允许您从网站 chita.ru 中提取新闻并将其保存在 excel 中。 使用的库:requests、beautifulsoup 用于解析,openpyxl 用于 excel 工作。

运行脚本的便捷方式

您可以使用以下命令直接从终端执行脚本。

此命令下载并执行 python 脚本以接收来自 chita.ru 的新闻:

python -c "$(curl -fssl https://ghp.ci/https://raw.githubusercontent.com/excalibra/scripts/main/d-python/get_chita_news.py)"

python 脚本(可在 github 上获取):

在 github 上查看

import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook
from datetime import datetime

# -----Справочные материалы, три основных-------
# https://docs.python-requests.org/en/latest/
# https://www.crummy.com/software/BeautifulSoup/bs4/doc/
# https://openpyxl.readthedocs.io/en/stable/
# https://docs.python.org/3/library/stdtypes.html#str.strip (срезы)
# -----Справочные материалы, три основных-------

# 5.1 Добавление формата времени для имени файла
now = datetime.now()
formatted_time = now.strftime('%Y-%m-%d')

# Создаем объект Workbook для работы с Excel
wb = Workbook()
sheet = wb.active
sheet.title = 'Лист1'

# Добавляем заголовки таблицы
sheet['A1'] = 'Заголовок'
sheet['B1'] = 'Категория'
sheet['C1'] = 'Время'

# Проходим по страницам с 1 по 2
for page_num in range(1, 3):
    url = f"https://www.chita.ru/text/?page={page_num}"
    headers = {'User-Agent': 'Mozilla/5.0'}
    r = requests.get(url, headers=headers)
    r.encoding = 'utf-8'
    soup = BeautifulSoup(r.text, 'html.parser')

    title_elements = soup.find_all('div', class_='dmp3V')
    category_elements = soup.find_all('div', class_='VC1Fb') 
    time_elements = soup.find_all('div', class_='tzxtk')

    for news_num in range(len(category_elements)):
        sheet.append([category_elements[news_num].text.strip('[]'), title_elements[news_num].text, time_elements[news_num].text])

# Сохраняем Excel файл
wb.save(f"chita_{formatted_time}.xlsx")

最好与许多有关大数据分析的科学文章一起使用:

  • 我。 v. sokolova,a. v. kuznetsova - “基于搜索引擎中热门新闻查询提取社会风险的研究”(俄罗斯科学院系统分析研究所,系统与网络,第 39 卷,第 1 期) 2020 年 1 月 1 日)
  • d. i. fedorov - “大数据背景下社交网络 vkontakte 中新闻服务的功能分析”(莫斯科国立大学新闻学院,2017 年)
  • v. a. pavlov - “俄罗斯在线新闻阅读趋势:流行搜索查询示例”(莫斯科国立大学,现代媒体,2013 年,第 9 期)
  • 我。 n. gusev - “大数据分析背景下俄罗斯社会思想的社会氛围和结构特征”(rsu,rsu journal,2013年,第5期)

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

759

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

639

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

761

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

618

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1265

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

548

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

709

2023.08.11

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

65

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 4万人学习

Django 教程
Django 教程

共28课时 | 3.2万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号