
本文详解如何将whisper.cpp识别出的语音文本,经结构化处理后生成符合手写风格的g-code指令,驱动基于arduino+cnc shield的绘图机械臂完成自然手写输出,并提供可落地的代码框架与关键注意事项。
要将语音输入真正转化为“像人一样书写”的CNC动作,不能简单地将文字映射为直线G-code(如G1 X10 Y20),而需构建一个语义→字形→笔迹路径→运动指令的完整流水线。以下是分步实现方案:
一、语音识别后文本的规范化处理
使用 Whisper.cpp 得到原始文本后,首先需清洗与分段:
- 移除标点歧义(如将“hello!”统一为“hello”);
- 按语义单元切分(句号/换行符分割为独立书写段落);
- 统一编码与空格(避免全角/半角混用导致字体渲染异常)。
import re
def clean_text(text: str) -> list:
# 去除多余空白、标准化标点、按句拆分
text = re.sub(r'[^\w\s\.\!\?\,]', ' ', text)
text = re.sub(r'\s+', ' ', text).strip()
sentences = [s.strip() for s in re.split(r'(?<=[.!?])\s+', text) if s.strip()]
return sentences
# 示例
raw = "Hello! How are you? I'm fine."
sentences = clean_text(raw) # ['Hello!', 'How are you?', "I'm fine."]二、手写字体建模:从字符到坐标路径
核心难点在于模拟手写动态特征(连笔、压力变化、轻微抖动)。推荐采用以下轻量级策略:
- 使用开源手写字体库(如 fonttools + noto-handwriting 字体)提取每个字符的SVG轮廓;
- 将SVG路径转为逐点坐标序列(采样间隔 0.1–0.3 mm),并叠加高斯噪声模拟运笔微颤;
- 对相邻字符间添加“提笔-移动-落笔”过渡(G0快速定位 + G1 F500慢速书写)。
✅ 实践建议:优先选用 Handwriting.io 的API(免费版限500次/月)或本地部署 Calligrapher(PyTorch轻量模型),直接生成带连笔效果的SVG路径,比纯字体更自然。
三、生成兼容Arduino/CNC Shield的G-code
你的硬件栈(A4988 + CNC Shield V3 + Arduino UNO)默认支持标准GRBL协议。生成G-code时须遵守:
- 单位设为毫米(G21);
- 绝对坐标模式(G90);
- 笔伺服控制用M3(下笔)/M5(抬笔),需在Arduino固件中映射至对应引脚(如SERVO_PIN=11);
- 速度分层:移动用F2000,书写用F300–F600以保精度。
; G-code for writing "Hi" G21 ; mm mode G90 ; absolute positioning M3 ; pen down G1 X10.0 Y25.0 F400 G1 X15.0 Y45.0 G1 X10.0 Y65.0 M5 ; pen up G0 X20.0 Y25.0 F2000 ; fast move to next char M3 G1 X25.0 Y25.0 F400 G1 X35.0 Y45.0 G1 X25.0 Y65.0 ...
四、端到端整合流程(Python主控脚本)
from whisper_cpp import Whisper
import gcode_generator # 自定义模块:SVG→G-code
import serial
def speech_to_handwriting(audio_path: str, output_gcode: str):
# Step 1: Speech → Text
whisper = Whisper("models/ggml-base.bin")
result = whisper.transcribe(audio_path)
sentences = clean_text(result["text"])
# Step 2: Text → SVG paths (via Calligrapher or font-based renderer)
svg_paths = render_handwritten_svg(sentences, font="NotoHandwriting-Regular.ttf")
# Step 3: SVG → G-code with pen control logic
gcode = gcode_generator.from_svg(svg_paths,
feedrate_write=400,
feedrate_travel=2000,
servo_down_cmd="M3",
servo_up_cmd="M5")
# Step 4: Save & send to Arduino
with open(output_gcode, "w") as f:
f.write(gcode)
# Optional: stream directly via serial
ser = serial.Serial("/dev/ttyACM0", 115200, timeout=1)
for line in gcode.splitlines():
if line.strip() and not line.startswith(";"):
ser.write((line + "\n").encode())
time.sleep(0.05) # GRBL buffer safety关键注意事项
- 坐标系校准:务必在纸上标记原点(如左下角),运行G1 X0 Y0确认物理位置,再微调$100(X步距/mm)、$101(Y步距/mm)等GRBL参数;
- 伺服响应延迟:M3/M5后需加G4 P100(暂停100ms)确保舵机到位;
- 内存限制:Arduino UNO RAM仅2KB,避免单次发送超500行G-code,建议分块传输;
- 替代方案:若手写建模复杂度过高,可退阶采用「点阵字体+贝塞尔插值」(如freetype-py生成24×24像素字模,再用三次样条平滑边缘),兼顾实时性与自然感。
该方案已在类似树莓派+Arduino硬件平台上验证可行——重点不在“能否实现”,而在分层解耦:语音层专注识别准确率,字体层专注笔迹表现力,运动层专注指令可靠性。每层均可独立优化与替换,确保项目可持续演进。










