如何使用正则表达式解析无分隔符的固定格式文本并格式化输出

聖光之護

发布时间：2026-01-13 14:23:02

984人浏览过

来源于php中文网

原创

如何使用正则表达式解析无分隔符的固定格式文本并格式化输出

本文讲解如何解析类似"000001bilbobagginsesq.1020"这样无分隔符的紧凑字符串，通过正则匹配提取字段，并用`printf`或`string.formatted()`实现对齐排版输出。

你遇到的问题本质并非printf失效，而是rec变量直接存储了原始未解析的整行字符串（如"000001BilboBagginsEsq.1020"），而printf("\n%4d %-60s ", line, rec)只是将整个长串按60字符左对齐打印——这当然无法产生你期望的“字段对齐”效果。

真正需要的是：先结构化解析字段，再分别格式化输出。由于原始数据无空格、逗号等分隔符，必须依赖字段的语义规律（如ID全数字、姓名首字母大写、年份结尾为数字等）进行正则切分。

以下是一个完整、健壮的解决方案：

MuleRun

全球首个AI Agent交易平台

下载

✅ 步骤一：定义结构化数据类与解析逻辑

import java.util.regex.Matcher;
import java.util.regex.Pattern;

class Entry {
    private final String id;
    private final String firstName;
    private final String lastName;
    private final String title;
    private final String birthYear;

    // 使用正则精准捕获5个字段：ID(数字) + FirstName(大写开头单词) + LastName(同上) + Title(同上) + Year(数字)
    private static final Pattern PATTERN = Pattern.compile(
        "(\\d+)([A-Z][a-z._]+)([A-Z][a-z._]+)([A-Z][a-z._]+)(\\d+)"
    );

    public static Entry parse(String rawLine) {
        Matcher m = PATTERN.matcher(rawLine);
        if (!m.matches()) {
            throw new IllegalArgumentException("Invalid format: " + rawLine);
        }
        return new Entry(
            m.group(1), m.group(2), m.group(3), m.group(4), m.group(5)
        );
    }

    private Entry(String id, String firstName, String lastName, String title, String birthYear) {
        this.id = id;
        this.firstName = firstName;
        this.lastName = lastName;
        this.title = title;
        this.birthYear = birthYear;
    }

    @Override
    public String toString() {
        // 每字段分配15字符宽度，左对齐；年份不加空格（右对齐更自然，此处保持左对齐一致性）
        return String.format("%-15s%-15s%-15s%-15s%s", 
            id, firstName, lastName, title, birthYear);
    }
}

✅ 步骤二：在文件读取循环中解析并打印

// 假设 reader 已由 JFileChooser 初始化
int lineNum = 0;
String rec;
while ((rec = reader.readLine()) != null) {
    lineNum++;
    try {
        Entry entry = Entry.parse(rec);
        // 输出：行号 + 格式化后的字段（符合你的示例样式）
        System.out.printf("%d %s%n", lineNum, entry);
    } catch (IllegalArgumentException e) {
        System.err.println("Parse error at line " + lineNum + ": " + e.getMessage());
    }
}
System.out.println("\nData file read!");

⚠️ 关键注意事项

正则可靠性：当前正则假设姓名/头衔均由“首字母大写+小写字母/点/下划线”组成（如 Bilbo, Baggins, Esq.）。若实际数据含空格、连字符（如 Mary-Jane）或小写前缀（如 de Gaulle），需扩展正则，例如 (\\d+)([A-Z][a-z._\\-]+)([A-Z][a-z._\\-]+)([A-Z][a-z._\\-]+)(\\d+)。
边界处理：reader.ready() 不是安全的循环条件（尤其对网络流或缓冲问题），应始终用 readLine() != null 判断。
资源管理：推荐使用 try-with-resources（如答案所示），避免手动 close() 遗漏导致文件句柄泄漏。
性能提示：Pattern.compile() 是开销操作，应定义为 static final，避免在循环内重复编译。

✅ 最终输出效果

输入行：000001BilboBagginsEsq.1020
输出：

1 000001         Bilbo          Baggins        Esq.           1020

完全匹配你的目标格式——字段间由空格对齐，视觉清晰，便于阅读与后续处理。

此方法将“原始字符串→结构化对象→格式化视图”的职责分离，既保证解析准确性，又赋予输出高度可控性，是处理无分隔符定长/变长记录的标准实践。

在Java中如何遍历TreeSet集合_Java排序集合遍历解析

在Java中如何使用三元运算符_Java条件表达式解析

如何在 Java 中使用现代日期时间 API 处理多种格式的日期字符串输入

在Java中引用数据类型如何使用_Java引用类型基础讲解

Java命令模式与责任链模式的核心概念

相关标签:

java 正则表达式格式化输出正则表达式 Static String NULL try printf 字符串循环对象

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Java中数组赋值为何会相互影响？深入理解引用传递机制下一篇：在Java里==与equals的区别是什么_Java对象比较机制说明

作者最新文章

现代都市斗法罗刹？这款新作把印度神话玩出花！

2026-01-12 14:26

如何强制 Chrome 加载网页最新版本而不依赖手动清缓存

2026-01-12 14:27

如何解决笔记本触摸板“轻触点击”无法触发 onclick 事件的问题

2026-01-12 14:34

快手如何发图集作品

2026-01-12 14:43

360手机浏览器无痕模式怎么设置

2026-01-12 14:47

只差官宣了？《使命召唤》启动器代码出现任天堂标识

2026-01-12 14:53

商品怎么置顶视频号评论？评论区置顶广告位在哪？

2026-01-12 15:08

抖音私信获客适合什么行业？私信获客的收费标准是什么？

2026-01-12 15:13

商家回应一盒内存条能买上海一套房：还真差不多！

2026-01-12 15:18

新三国志曹操传沙盘1750-1949过关攻略

2026-01-12 15:23

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

510

2023.06.20

正则表达式不包含

正则表达式，又称规则表达式,，是一种文本模式，包括普通字符和特殊字符，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章，希望对大家能有所帮助。

247

2023.07.05

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

737

2023.07.05

java正则表达式匹配字符串

在Java中，我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容，帮助大家解决问题。

211

2023.08.11

正则表达式空格

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容，供大家免费下载体验。

349

2023.08.31

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容，可以访问下面的文章。

232

2023.11.17

正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

528

2023.12.06

php与html混编教程大全

本专题整合了php和html混编相关教程，阅读专题下面的文章了解更多详细内容。

2026.01.13

热门下载

网站特效

网站源码

网站素材

前端模板