
本教程详细介绍了如何利用r语言中的`stringr`包和正则表达式,从包含复杂html标签的字符串列中精准提取特定数据,并将其转换为新的独立列。文章通过具体代码示例,演示了从原始数据准备、模式匹配、数据清洗到最终整合的完整流程,旨在帮助用户高效处理非结构化文本数据,实现数据结构的优化与重构。
在数据分析实践中,我们经常会遇到需要从非结构化或半结构化字符串中提取特定信息的场景。例如,一个数据框的某一列可能包含长篇的HTML片段、XML结构或自定义格式的文本,其中混杂着我们所需的关键数据。手动解析这些字符串既耗时又容易出错。R语言提供了强大的文本处理能力,特别是结合stringr包和正则表达式,可以高效、准确地自动化这一过程。
本教程将以一个具体的例子,演示如何从包含<status>和<profession>标签的HTML字符串中提取对应的数值和文本信息,并将其转化为数据框中的独立列。
stringr是R语言中一个现代化、用户友好的字符串处理包,它提供了一系列功能强大且直观的函数,用于字符串的检测、提取、替换、分割等操作。其核心优势在于与正则表达式(Regex)的无缝集成,使得复杂的模式匹配和数据提取变得简单高效。
正则表达式是一种描述字符串模式的强大工具。通过学习和掌握正则表达式,我们可以定义出极其精确的匹配规则,从而在各种复杂的文本中找到并操作目标数据。
立即学习“前端免费学习笔记(深入)”;
我们将通过一个具体的案例来演示如何利用stringr包和正则表达式从HTML字符串中提取数据。
首先,我们创建一个包含姓名(name)和生物信息(bio)的数据框。bio列中包含了我们希望提取的<status>和<profession>信息。为了演示健壮性,我们额外添加了一行不包含所有目标标签的数据。
library(stringr)
# 示例数据
name <- c("John", "Max", "Jane")
bio <- c(
"<status>1</status><profession>Revisor</professio>",
"<status>1</status><born>19.06.1995</born><profession>Tech</professio>",
"<born>1990</born><hobby>Reading</hobby>" # 示例:没有status和profession标签
)
df <- data.frame(name, bio)
print(df)输出:
name bio 1 John <status>1</status><profession>Revisor</professio> 2 Max <status>1</status><born>19.06.1995</born><profession>Tech</professio> 3 Jane <born>1990</born><hobby>Reading</hobby>
我们需要从bio列中提取<status>标签内的数字。这个过程分为两步:首先匹配包含完整标签的字符串,然后替换掉标签,只保留数字。
# 步骤1: 使用 str_extract_all 提取包含 <status> 标签的完整字符串
# pattern = "<status>\d</status>" 匹配以 <status> 开头,接着一个数字(\d),再以 </status> 结尾的字符串。
status_list <- stringr::str_extract_all(df$bio, pattern = "<status>\d</status>")
print("提取到的原始status列表:")
print(status_list)
# 步骤2: 使用 str_replace_all 替换标签,只保留数字
# pattern = "(<status>)(\d)(</status>)" 定义了三个捕获组。
# "\2" 表示在替换时只使用第二个捕获组的内容(即数字)。
status_cleaned_list <- stringr::str_replace_all(status_list, pattern = "(<status>)(\d)(</status>)", "\2")
print("清洗后的status列表:")
print(status_cleaned_list)
# 将列表转换为向量,并处理无匹配时产生的 NA
status_vector <- as.numeric(unlist(lapply(status_cleaned_list, function(x) if(length(x) == 0) NA else x)))
print("转换为向量的status:")
print(status_vector)输出:
[1] "提取到的原始status列表:" [[1]] [1] "<status>1</status>" [[2]] [1] "<status>1</status>" [[3]] character(0) [1] "清洗后的status列表:" [[1]] [1] "1" [[2]] [1] "1" [[3]] character(0) [1] "转换为向量的status:" [1] 1 1 NA
与提取status类似,我们从bio列中提取<profession>标签内的职业名称。
# 步骤1: 使用 str_extract_all 提取包含 <profession> 标签的完整字符串
# pattern = "<profession>[:alpha:]*</professio>" 匹配 <profession> 开头,接着零个或多个字母字符 ([:alpha:]*),再以 </professio> 结尾。
profession_list <- stringr::str_extract_all(df$bio, pattern = "<profession>[:alpha:]*</professio>")
print("提取到的原始profession列表:")
print(profession_list)
# 步骤2: 使用 str_replace_all 替换标签,只保留职业名称
# pattern = "(<profession>)([:alpha:]*)(</professio>)" 定义了三个捕获组。
# "\2" 表示只保留第二个捕获组的内容(即职业名称)。
profession_cleaned_list <- stringr::str_replace_all(profession_list, pattern = "(<profession>)([:alpha:]*)(</professio>)", "\2")
print("清洗后的profession列表:")
print(profession_cleaned_list)
# 将列表转换为向量,并处理无匹配时产生的 NA
profession_vector <- unlist(lapply(profession_cleaned_list, function(x) if(length(x) == 0) NA_character_ else x))
print("转换为向量的profession:")
print(profession_vector)输出:
[1] "提取到的原始profession列表:" [[1]] [1] "<profession>Revisor</professio>" [[2]] [1] "<profession>Tech</professio>" [[3]] character(0) [1] "清洗后的profession列表:" [[1]] [1] "Revisor" [[2]] [1] "Tech" [[3]] character(0) [1] "转换为向量的profession:" [1] "Revisor" "Tech" NA
最后,我们将提取并清洗后的status和profession向量作为新列,添加到原始数据框中,或创建一个新的数据框。
df_final <- data.frame(
name = df$name,
status = status_vector,
profession = profession_vector
)
print(df_final)输出:
name status profession 1 John 1 Revisor 2 Max 1 Tech 3 Jane NA <NA>
理解本教程中使用的正则表达式模式是掌握其核心的关键:
以上就是使用R语言与stringr包从HTML字符串中提取结构化信息的详细内容,更多请关注php中文网其它相关文章!
HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号