
在日常开发中,我们经常需要从非标准化的字符串中提取结构化数据。考虑以下两种类似的字符串格式:
这些字符串包含多个逻辑部分:
尝试使用单一的正则表达式来精确匹配和捕获所有这些不同且具有可变性的部分,尤其是当它们之间存在多个分隔符和嵌套结构时,往往会导致正则表达式过于复杂、难以编写和维护,并且容易出错。在这种情况下,采用分步的编程解析方法通常更为高效和健壮。
Java提供了丰富的字符串操作方法,可以帮助我们逐步解构复杂字符串。核心思路是将整个字符串分解为更小的、可管理的片段,然后针对每个片段进行精确的数据提取。
立即学习“Java免费学习笔记(深入)”;
首先,观察到ratings相关部分和movie相关部分之间由一个空格分隔。我们可以利用这一点进行初步分割。
String str = "anyword_ratings_.anyword_anyword.doc.20221111 movie.txt.20221111";
str = str.trim(); // 清除首尾空格
String[] parts = str.split("\s+"); // 按一个或多个空格分割
String firstPart = parts[0]; // ratings相关部分
String secondPart = parts[1]; // movie相关部分firstPart的格式为 [任意词]_ratings_.[任意词]_[任意词].[文件类型].[日期]。我们需要提取ratings之前的内容、ratings之后到文件类型之前的内容以及日期。
提取 ratings 之前的内容 (beforeRatings): 使用indexOf("ratings")找到ratings的起始位置,然后截取前面的部分。
String beforeRatings = firstPart.substring(0, firstPart.indexOf("ratings"))
.replace("_", " ").trim();
// 例如:"anyword_" 经过处理后得到 "anyword"提取 ratings 之后到文件类型之前的内容 (afterRatings): 从ratings结束位置开始,到倒数第二个点(文件类型分隔符)之前。需要注意的是,ratings后面可能紧跟下划线或点,需要额外处理。
String afterRatings = firstPart.substring(firstPart.indexOf("ratings") + 7, firstPart.lastIndexOf(".")).trim();
// 移除可能的前导下划线或点
while (afterRatings.startsWith("_") || afterRatings.startsWith(".")) {
afterRatings = afterRatings.substring(1);
}
// 例如:".anyword_anyword" 经过处理后得到 "anyword_anyword"提取 ratings 对应的日期 (ratingDate): 日期总是字符串的最后一部分,以最后一个点分隔。使用DateTimeFormatter将字符串转换为LocalDate对象。
import java.time.LocalDate;
import java.time.format.DateTimeFormatter;
DateTimeFormatter dtf = DateTimeFormatter.ofPattern("yyyyMMdd");
String ratingDateString = firstPart.substring(firstPart.lastIndexOf(".") + 1);
LocalDate ratingDate = LocalDate.parse(ratingDateString, dtf);
// 例如:"20221111" 转换为对应的 LocalDate 对象secondPart的格式为 [电影文件名].[文件类型].[日期]。我们需要提取文件名和日期。
提取电影文件名 (movieFile): 文件名是倒数第二个点之前的部分。
String movieFile = secondPart.substring(0, secondPart.lastIndexOf("."));
// 例如:"movie.txt.20221111" 截取得到 "movie.txt"提取电影日期 (movieDate): 日期是最后一部分,同样使用DateTimeFormatter进行解析。
String movieDateString = secondPart.substring(secondPart.lastIndexOf(".") + 1);
LocalDate movieDate = LocalDate.parse(movieDateString, dtf);
// 例如:"20221111" 转换为对应的 LocalDate 对象将上述步骤整合到一起,形成完整的Java解析程序:
import java.time.LocalDate;
import java.time.format.DateTimeFormatter;
public class ComplexStringParser {
public static void main(String[] args) {
String str = "anyword_ratings_.anyword_anyword.doc.20221111 movie.txt.20221111";
// 日期格式化器,用于解析"YYYYMMDD"格式的日期
DateTimeFormatter dtf = DateTimeFormatter.ofPattern("yyyyMMdd");
// 1. 清理并分割字符串
str = str.trim(); // 移除字符串首尾的空白字符
String[] parts = str.split("\s+"); // 根据一个或多个空格分割字符串
String firstPart = parts[0]; // 包含 ratings 相关信息的部分
String secondPart = parts[1]; // 包含 movie 相关信息的部分
// 2. 解析 firstPart (ratings 相关部分)
// 提取 "ratings" 之前的内容,并将下划线替换为空格,然后去除首尾空格
String beforeRatings = firstPart.substring(0, firstPart.indexOf("ratings"))
.replace("_", " ").trim();
// 提取 "ratings" 之后到文件类型之前的内容
// 从 "ratings" 结束位置开始截取,到倒数第二个点之前
String afterRatings = firstPart.substring(firstPart.indexOf("ratings") + 7, firstPart.lastIndexOf(".")).trim();
// 移除可能的前导下划线或点
while (afterRatings.startsWith("_") || afterRatings.startsWith(".")) {
afterRatings = afterRatings.substring(1);
}
// 提取 ratings 对应的日期字符串,并解析为 LocalDate 对象
String ratingDateString = firstPart.substring(firstPart.lastIndexOf(".") + 1);
LocalDate ratingDate = LocalDate.parse(ratingDateString, dtf);
// 3. 解析 secondPart (movie 相关部分)
// 提取电影文件名,即倒数第二个点之前的部分
String movieFile = secondPart.substring(0, secondPart.lastIndexOf("."));
// 提取电影日期字符串,并解析为 LocalDate 对象
String movieDateString = secondPart.substring(secondPart.lastIndexOf(".") + 1);
LocalDate movieDate = LocalDate.parse(movieDateString, dtf);
// 4. 输出解析结果
System.out.println("Before Ratings: " + beforeRatings);
System.out.println("After Ratings: " + afterRatings);
System.out.println("Ratings Date: " + ratingDate + " (LocalDate Type "yyyy-MM-dd")");
System.out.println("Movie File: " + movieFile);
System.out.println("Movie Date: " + movieDate + " (LocalDate Type "yyyy-MM-dd")");
}
}执行上述代码,控制台将输出以下内容:
Before Ratings: anyword After Ratings: anyword_anyword.doc Ratings Date: 2022-11-11 (LocalDate Type "yyyy-MM-dd") Movie File: movie.txt Movie Date: 2022-11-11 (LocalDate Type "yyyy-MM-dd")
正则表达式与编程解析的权衡:
健壮性考虑:
日期格式化:
以上就是超越单一正则:Java实现复杂多模式字符串的精确解析与数据提取的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号