使用 R 提取新闻文章中的有效文本-html教程-PHP中文网

使用 R 提取新闻文章中的有效文本

心靈之曲

发布： 2025-11-02 12:29:35

原创

353人浏览过

使用 r 提取新闻文章中的有效文本

本文介绍如何使用 R 语言提取网页中的有效文本内容，去除无关的 HTML 标签、特殊字符和非文本信息。通过结合 `htm2txt`、`quanteda` 和 `qdapDictionaries` 等 R 包，实现从网页抓取文本并过滤掉非英文单词，从而获得更干净、更易于分析的文章内容。

在进行文本分析、自然语言处理或信息检索等任务时，经常需要从网页中提取文本数据。然而，直接从 HTML 页面提取的文本往往包含大量的噪音，例如 HTML 标签、JavaScript 代码、CSS 样式以及各种特殊字符。这些噪音会严重影响后续分析的准确性和效率。本文将介绍一种使用 R 语言提取网页有效文本的方案，通过结合多个 R 包，实现网页文本的清洗和过滤。

方案概述

该方案的核心思路是：

使用 htm2txt 包提取网页的纯文本内容。 htm2txt 包可以将 HTML 页面转换为纯文本，去除大部分 HTML 标签。
使用 quanteda 包进行文本预处理。 quanteda 包提供了强大的文本处理功能，可以进行分词、去除标点符号、去除数字等操作。
使用 qdapDictionaries 包过滤非英文单词。 qdapDictionaries 包包含一个常用的英文单词字典，可以用于过滤掉文本中不是英文单词的内容。

详细步骤

以下是详细的代码示例，展示了如何使用 R 语言提取网页中的有效文本：

逍遥内容管理系统(Carefree CMS)1.3.0

系统简介逍遥内容管理系统（CarefreeCMS）是一款功能强大、易于使用的内容管理平台，采用前后端分离架构，支持静态页面生成，适用于个人博客、企业网站、新闻媒体等各类内容发布场景。核心特性1、模板套装系统 - 支持多套模板自由切换，快速定制网站风格2、静态页面生成 - 一键生成纯静态HTML页面，访问速度快，SEO友好3、文章管理 - 支持富文本编辑、草稿保存、文章属性标记、自动提取SEO4、全

查看详情

library(tidyverse)
library(htm2txt)
library(quanteda)
library(qdapDictionaries)
data(DICTIONARY)

# 定义要提取文本的 URL
url <- 'https://en.wikipedia.org/wiki/Alan_Turing'

# 使用 htm2txt 包提取网页的纯文本内容
text <- url %>% gettxt() %>% corpus()

# 使用 quanteda 包进行文本预处理
text <- tokens(text, remove_punct = TRUE, remove_numbers = TRUE)

# 使用 qdapDictionaries 包过滤非英文单词
text <- tokens_select(text, DICTIONARY$word)

# 将结果转换为数据框并统计词频
text <- data.frame(text = sapply(text, as.character), stringsAsFactors = FALSE) %>%
  group_by(text1 = tolower(text)) %>%
  table() %>% as.data.frame() %>%
  rename(word = text1) %>%
  rename(frequency = Freq)

# 显示词频最高的前几项
head(text)

登录后复制

代码解释：

library(tidyverse): 导入tidyverse包，包含dplyr, readr, ggplot2等常用数据处理和可视化工具。
library(htm2txt): 导入htm2txt包，用于从HTML页面提取文本。
library(quanteda): 导入quanteda包，用于文本分析和处理。
library(qdapDictionaries): 导入qdapDictionaries包，包含英文单词字典。
data(DICTIONARY): 加载qdapDictionaries包中的DICTIONARY数据集，包含英文单词列表。
url
text % gettxt() %>% corpus(): 使用gettxt()函数从URL提取文本，并使用corpus()函数创建quanteda语料库对象。
text
text word): 使用tokens_select()函数，根据DICTIONARY中的单词列表，选择只包含英文单词的token。
text
head(text): 显示词频最高的前几项。

注意事项

此方法依赖于 qdapDictionaries 中的英文单词字典。如果需要处理其他语言的文本，需要使用相应的字典。
即使使用了字典过滤，仍然可能存在一些非文章内容的单词，例如导航栏中的单词。需要根据实际情况进行进一步的过滤。
该方法仅适用于包含英文单词的网页。对于其他语言的网页，需要使用相应的词典进行过滤。
对于结构复杂的网页，可能需要使用更高级的 HTML 解析技术，例如使用 rvest 包选择特定的 HTML 节点进行提取。

总结

本文介绍了一种使用 R 语言提取网页有效文本的方案。该方案通过结合 htm2txt、quanteda 和 qdapDictionaries 等 R 包，实现了从网页抓取文本并过滤掉非英文单词，从而获得更干净、更易于分析的文章内容。这种方法可以应用于各种文本分析任务，例如情感分析、主题建模和关键词提取等。在实际应用中，可以根据具体需求对代码进行修改和优化，以获得更好的效果。

以上就是使用 R 提取新闻文章中的有效文本的详细内容，更多请关注php中文网其它相关文章！