
当面对格式不规范、空格分隔的文本文件时,标准的数据导入库如pandas可能无法有效处理。本教程将指导您如何利用python和正则表达式,通过定制化的解析逻辑,识别并区分字段分隔符与数据内部的空格,从而成功地将此类“脏数据”转换为结构化的csv文件。
在数据处理的实践中,我们经常会遇到格式不规范的文本文件。这类文件通常使用不规则数量的空格来分隔字段,甚至在数据字段内部也可能包含空格,这使得传统的 pandas.read_csv 等方法难以直接处理。例如,尝试使用制表符 (sep='\t') 或固定数量空格 (sep=r"\s{2,}") 作为分隔符,往往会导致列错位、数据丢失或解析错误。为了有效地将这类“坏”文本文件转换为结构化的CSV格式,我们需要编写自定义的Python解析逻辑。
问题中提供的文本数据示例很好地说明了这类文件带来的挑战:
针对这类复杂场景,最有效的方法是采用逐行读取文件,并结合正则表达式进行精细化匹配和替换的策略。核心思想是:识别不同长度的连续空格所代表的含义——究竟是字段分隔符,还是数据本身的一部分。
以下是实现这一目标的核心Python代码,并附带详细解释:
立即学习“Python免费学习笔记(深入)”;
import re
import csv
def parse_bad_txt_to_table(filepath):
    """
    解析不规范的空格分隔文本文件,并将其转换为一个列表的列表(表格形式)。
    Args:
        filepath (str): 待解析的文本文件路径。
    Returns:
        list[list[str]]: 解析后的数据表格,每个内部列表代表一行。
    """
    table = []
    try:
        with open(filepath, 'r', encoding='utf-8') as f:
            lines = f.readlines()
    except FileNotFoundError:
        print(f"错误:文件 '{filepath}' 未找到。")
        return []
    except Exception as e:
        print(f"读取文件时发生错误:{e}")
        return []
    for i, line in enumerate(lines):
        line = line.rstrip('\n') # 移除行尾的换行符
        if i == 0:
            # 第一行:标题行。假设标题字段之间不会有“假分隔符”,
            # 故可以安全地按2个或更多空格分割。
            row = re.split(r' {2,}', line)
            table.append(row)
            continue
        if not line.strip(): # 检查是否为空行(包括只含空格的行)
            # 忽略空行,或者根据需要进行特定处理
            continue
        # 对于数据行,我们需要更复杂的逻辑来区分字段分隔符和数据内部的空格
        def replfunc(match_obj):
            """
            根据匹配到的连续空格的长度,决定是替换为单个空格(数据内部)
            还是一个或多个制表符(字段分隔符)。
            """
            L = len(match_obj.group(0)) # 获取匹配到的连续空格的长度
            # 特殊情况处理:识别数据内部的特定空格模式。
            # 示例中 "Rejected at  level." 内部有2个空格,这不应被视为分隔符。
            start, end = match_obj.span()
            if L == 2 and line[:start].endswith('Rejected at') and line[end:].startswith('level.'):
                return ' ' # 将其替换为单个空格,保留在数据内部
            # 其他连续空格被视为字段分隔符,根据其长度映射为不同数量的制表符。
            # 这里的映射规则需要根据实际数据进行观察、分析和调整。
            if L < 2:
                # 理论上不应出现少于2个空格被视为分隔符的情况,否则与数据内部空格冲突。
                # 如果出现,保持不变或抛出警告。
                return match_obj.group(0)
            elif 2 <= L <= 12: # 2到12个空格,替换为单个制表符
                return '\t'
            elif L == 17: # 17个空格,替换为两个制表符(表示中间可能存在一个空字段)
                return '\t\t'
            elif L == 43: # 43个空格,替换为三个制表符
                return '\t\t\t'
            elif L == 61: # 61个空格,替换为五个制表符
                return '\t\t\t\t\t'
            elif L == 120 or L == 263: # 其他特定长度的空格,替换为单个制表符
                return '\t'
            else:
                # 如果遇到未预料的空格长度,可以标记出来以便调试和规则完善。
                # print(f"警告: 未处理的空格长度 {L} 在行 {i+1}: '{line}'")
                return '\t' # 默认替换为单个制表符,可能需要调整
        # 使用re.sub结合replfunc替换连续空格,将字段分隔符统一为制表符
        tabbed_line = re.sub(r'\s{2,}', replfunc, line)
        row = tabbed_line.split('\t') # 依据制表符分割字段
        table.append(row)
    return table
def write_table_to_csv(table_data, output_filepath):
    """
    将解析后的表格数据写入CSV文件。
    Args:
        table_data (list[list[str]]): 待写入的表格数据。
        output_filepath (str): 输出CSV文件的路径。
    """
    try:
        with open(output_filepath, 'w', newline='', encoding='utf-8') as csvfile:
            csv_writer = csv.writer(csvfile)
            csv_writer.writerows(table_data)
        print(f"数据已成功转换为 '{output_filepath}'")
    except Exception as e:
        print(f"写入CSV文件时发生错误:{e}")
# --- 示例使用 ---
input_file = 'input.txt'  # 假设您的原始文本文件名为input.txt
output_file = 'Report.csv'
# 1. 解析文本文件
parsed_data_table = parse_bad_txt_to_table(input_file)
# 2. 将解析后的数据写入CSV文件
if parsed_data_table:
    write_table_to_csv(parsed_data_table, output_file)
# ---------------------------
# 以下代码用于在控制台美观地打印解析结果,便于检查(可选)
def print_formatted_table(table_data):
    """
    在控制台以对齐的方式打印表格数据。
    """
    if not table_data:
        print("无数据可显示。")
        return
    # 计算每列的最大宽度
    max_n_fields = max(len(row) for row in table_data)
    field_widths = [0] * max_n_fields
    for row in table_data:
        for j, field in enumerate(row):
            if j < max_n_fields:
                field_widths[j] = max(field_widths[j], len(field))
    # 打印表格
    for row in table_data:
        for j, field in enumerate(row):
            if j < max_n_fields:
                print(field.ljust(field_widths[j]), end='|')
        print()
# print("\n解析结果预览:")
# print_formatted_table(parsed_data_table)处理格式不规范的文本文件是一项常见的挑战,尤其当标准库无法直接胜任时。通过Python结合正则表达式的定制化解析,我们可以精确控制如何识别和处理字段分隔符,即使在数据内部存在与分隔符相似的模式。虽然这种方法需要根据具体文件格式进行细致的调整和测试,但它为解决复杂的数据清洗问题提供了一个强大而灵活的工具。在实际应用中,建议对数据进行充分的探索性分析,以建立准确的解析规则,并考虑将解析逻辑模块化,以便于维护和复用。
以上就是Python教程:定制化解析复杂空格分隔文本并生成CSV的详细内容,更多请关注php中文网其它相关文章!
 
                        
                        每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
 
                Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号