
本文探讨了在2D人体姿态估计中,如何处理和适配特定JSON格式的关键点数据。针对用户自定义的`[x, y, confidence]`扁平化列表格式,文章指出直接寻找原生输出此格式的模型存在挑战。核心策略是理解现有数据结构,并根据目标姿态估计模型的输入要求进行数据重格式化。教程将提供JSON解析示例,并讨论关键点顺序、坐标归一化等重格式化要点,旨在帮助开发者高效地将自定义数据应用于主流姿态估计框架。
在2D人体姿态估计任务中,获取图像中人物的关键点坐标是核心目标。开发者常会遇到现有关键点数据(无论是标注数据还是其他模型输出)采用特定JSON格式,而主流姿态估计模型(如YOLOv8-pose、OpenPose、MediaPipe等)通常有其预定义的输入或输出格式。本文将针对类似以下示例的JSON格式数据,探讨如何进行解析、理解,并提出将其适配到主流姿态估计模型的方法。
我们首先分析提供的JSON数据结构。该格式将人体关键点表示为一个扁平化的列表,其中每个关键点由三个浮点数组成:[x坐标, y坐标, 置信度]。
{
"version": 1.0,
"people": [
{
"face_keypoints": [],
"pose_keypoints": [
104.81, 34.44, 0.91, // Keypoint 1 (x, y, confidence)
83.90, 80.05, 0.72, // Keypoint 2
// ... more keypoints ...
0, 0, 0, // Missing or undetected keypoint
93.98, 28.16, 0.93 // Last keypoint
],
"hand_right_keypoints": [],
"hand_left_keypoints": []
}
]
}在这个结构中:
这种扁平化列表的格式在某些场景下(例如OpenPose的早期输出或自定义数据集)较为常见,但其关键点的具体语义(例如第一个三元组代表鼻子,第二个代表左眼等)需要额外的映射表来定义。
开发者常常希望找到一个模型能够直接输出与其现有数据完全匹配的JSON格式。然而,这在实践中往往是困难的。
因此,与其寻找一个原生输出完全匹配的模型,更实际的方法是采用数据重格式化策略。
核心思想是:将现有自定义格式的关键点数据,转换为目标姿态估计模型所要求的输入格式,或者在模型输出后,将其结果转换为期望的自定义格式。
首先,我们需要编写Python代码来解析上述自定义JSON格式,将其转换为更易于处理的结构,例如一个包含 (x, y, confidence) 元组的列表。
import json
def parse_custom_keypoints_json(json_data_str):
"""
解析自定义JSON字符串,提取人体姿态关键点。
"""
data = json.loads(json_data_str)
people_keypoints_list = []
for person_data in data.get("people", []):
pose_keypoints_flat = person_data.get("pose_keypoints", [])
# 将扁平化列表转换为 (x, y, confidence) 元组列表
keypoints = []
for i in range(0, len(pose_keypoints_flat), 3):
if i + 2 < len(pose_keypoints_flat):
x = pose_keypoints_flat[i]
y = pose_keypoints_flat[i+1]
confidence = pose_keypoints_flat[i+2]
keypoints.append((x, y, confidence))
people_keypoints_list.append(keypoints)
return people_keypoints_list
# 示例JSON数据(来自问题内容)
example_json_str = """
{"version": 1.0, "people": [{"face_keypoints": [], "pose_keypoints": [104.818897637795, 34.4436363636364, 0.915185123682022, 83.9055118110236, 80.0581818181818, 0.723944239318371, 42.5826771653543, 79.8254545454545, 0.618412546813488, 34.7716535433071, 142.661818181818, 0.757904663681984, 31.244094488189, 204.8, 0.52992781996727, 122.456692913386, 81.2218181818182, 0.589333228766918, 125.48031496063, 145.92, 0.702833116054535, 131.527559055118, 192, 0.366538248956203, 58.7086614173228, 193.861818181818, 0.298667620576452, 0, 0, 0, 0, 0, 0, 107.842519685039, 196.421818181818, 0.324830377765466, 0, 0, 0, 0, 0, 0, 93.9842519685039, 28.16, 0.932040095329285, 107.086614173228, 26.9963636363636, 0.939965099096298, 71.3070866141732, 32.5818181818182, 0.885046675801277, 0, 0, 0], "hand_right_keypoints": [], "hand_left_keypoints": []}]}
"""
parsed_keypoints = parse_custom_keypoints_json(example_json_str)
# print(parsed_keypoints) # 输出解析后的关键点列表这段代码将原始的扁平化列表转换为更结构化的关键点列表,每个关键点是一个 (x, y, confidence) 元组。
以Ultralytics YOLOv8-pose为例,其姿态估计任务的标注格式通常是文本文件(.txt),每行代表一张图片中的一个目标,格式如下: class_id bbox_x_center bbox_y_center bbox_width bbox_height keypoint1_x keypoint1_y keypoint1_visibility keypoint2_x keypoint2_y keypoint2_visibility ...
其中:
这意味着,如果您想使用现有数据训练YOLOv8-pose,或者将YOLOv8-pose的输出转换为您的格式,您需要进行以下转换:
假设我们已经解析了自定义JSON数据,并获得了 keypoints = [(x1, y1, c1), (x2, y2, c2), ...]。现在我们将其转换为YOLOv8-pose所需的格式。
def reformat_for_yolov8_pose(parsed_keypoints_list, image_width, image_height, coco_keypoint_map):
"""
将解析后的关键点数据转换为YOLOv8-pose兼容的格式。
此函数仅为概念性示例,需要根据实际情况进行完善。
Args:
parsed_keypoints_list: parse_custom_keypoints_json 的输出。
image_width: 原始图像宽度。
image_height: 原始图像高度。
coco_keypoint_map: 一个字典,将自定义关键点索引映射到COCO关键点索引。
例如:{custom_idx: coco_idx, ...}
Returns:
一个列表,包含每个人的YOLOv8-pose格式字符串。
"""
yolov8_labels = []
for person_keypoints in parsed_keypoints_list:
# 1. 估算边界框 (这里简化处理,实际可能需要更精确的算法)
# 排除 (0,0,0) 的关键点来估算边界框
valid_keypoints = [(x, y) for x, y, c in person_keypoints if c > 0]
if not valid_keypoints:
continue # 没有有效关键点,跳过此人
min_x = min(kp[0] for kp in valid_keypoints)
max_x = max(kp[0] for kp in valid_keypoints)
min_y = min(kp[1] for kp in valid_keypoints)
max_y = max(kp[1] for kp in valid_keypoints)
bbox_width = (max_x - min_x) / image_width
bbox_height = (max_y - min_y) / image_height
bbox_x_center = ((min_x + max_x) / 2) / image_width
bbox_y_center = ((min_y + max_y) / 2) / image_height
# 2. 准备关键点列表并进行归一化和排序
# 假设我们有25个关键点,且已知道它们的COCO映射
# 这里需要一个更复杂的映射逻辑,将原始关键点与COCO 17个关键点对应
# 简化为直接使用原始关键点,并假设其顺序与某个标准匹配
# 填充COCO 17个关键点,如果原始数据有更多,需要选择性映射
# 如果原始数据有25个关键点,需要根据COCO的17个关键点进行筛选和排序
# 示例中假设 person_keypoints 的顺序与COCO关键点大致对应或可映射
# 为了演示,我们假设自定义数据的前17个关键点与COCO顺序一致
# 实际应用中,需要根据具体的关键点定义进行精确映射
keypoints_formatted = []
for i in range(17): # 假设目标是COCO 17个关键点
if i < len(person_keypoints):
x, y, c = person_keypoints[i]
x_norm = x / image_width
y_norm = y / image_height
# YOLOv8-pose通常使用0/1/2表示可见性,这里简化为0或1
visibility = 1 if c > 0 else 0
keypoints_formatted.extend([x_norm, y_norm, visibility])
else:
# 如果自定义数据关键点不足17个,则填充0
keypoints_formatted.extend([0.0, 0.0, 0])
# 3. 组合成YOLOv8-pose的标签行
# class_id 0 通常代表 "person"
label_line = f"0 {bbox_x_center:.6f} {bbox_y_center:.6f} {bbox_width:.6f} {bbox_height:.6f}"
label_line += " " + " ".join([f"{val:.6f}" for val in keypoints_formatted])
yolov8_labels.append(label_line)
return yolov8_labels
# 假设图像尺寸和COCO关键点映射(需要根据实际情况定义)
# 这是一个简化的映射示例,实际需要根据您的自定义关键点和COCO关键点对应关系来构建
# 例如:{0: 0, 1: 1, ... 16: 16} 假设前17个关键点直接对应COCO
coco_keypoint_mapping_example = {i: i for i in range(17)}
image_w, image_h = 640, 480 # 假设图像尺寸
# 转换数据
yolov8_formatted_labels = reformat_for_yolov8_pose(parsed_keypoints, image_w, image_h, coco_keypoint_mapping_example)
# for label in yolov8_formatted_labels:
# print(label)注意事项:
在完成数据重格式化后,您可以选择适合您需求的姿态估计模型:
以上就是2D人体姿态关键点数据处理:JSON格式解析与模型适配策略的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号