需启用stream为true并用SSE客户端处理:设置"stream": true、选支持模型、禁用冲突参数;用iter_lines或getReader解析text/event-stream;累加delta.content至为空时结束;监控连接关闭与error事件并重试。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您调用ChatGPT API时希望逐字或逐token接收响应内容,而非等待完整回复生成完毕再一次性返回,则需要启用流式输出功能。以下是实现该功能的具体步骤:
一、设置请求体中的stream参数为true
流式输出依赖于API请求中明确指定stream字段为布尔值true,服务端将据此切换为SSE(Server-Sent Events)响应格式,持续推送token片段。
1、在构造JSON请求体时,确保包含"stream": true字段,且该字段不能被字符串化或遗漏。
2、确认model字段值为支持流式响应的模型,例如"gpt-3.5-turbo"或"gpt-4"等官方文档标明支持stream的型号。
3、避免同时设置logprobs或top_logprobs等可能与流式不兼容的参数,除非文档明确说明其共存可行性。
二、使用支持SSE的HTTP客户端处理响应
标准HTTP请求库通常默认等待响应结束,而流式响应需以事件流方式持续读取,因此必须选用能解析text/event-stream MIME类型的客户端。
1、在Python中使用requests库时,需调用response.iter_lines()并手动剥离data:前缀及换行符。
2、在Node.js中使用fetch时,需通过response.body.getReader()配合decoder.decode()逐块解析UTF-8流数据。
3、关键提示:必须按行分割响应内容,并过滤空行和event: ping等心跳帧,仅提取以data:开头的有效载荷。
三、解析delta内容并拼接完整响应
每个SSE消息体中的data:字段携带一个ChatCompletionChunk对象,其delta.content字段包含当前批次的文本片段,需累积至最终结果。
1、初始化一个空字符串变量用于存储累计文本内容。
2、对每个合法的data:行执行JSON解析,提取delta.content字段值。
3、注意:首个chunk的delta可能为空对象或仅含role字段,content字段首次出现才开始追加;末尾chunk的delta.content为null,标志流结束。
四、处理异常中断与连接保活
流式连接易受网络抖动影响,需主动识别中断信号并决定是否重试,同时应对服务端发送的error事件做出响应。
1、监听底层连接关闭事件(如reader.closed或response.status !== 200),触发错误处理逻辑。
2、检查SSE消息中是否存在event: error及后续data:内嵌的错误码与消息,例如{"error":{"code":"rate_limit_exceeded"}}。
3、严禁忽略status字段为200但实际返回error事件的情况,此类响应仍属失败,需按错误类型区分重试策略。










