发布了文章4 月 29 日
多模态融合不是简单加权 —— 语音(partial ASR + 韵律 + 静默)和文本(候选人简历 + JD + 知识库)必须按段动态调权,单一固定权重在面试场景 Recall 掉 18-23%。
发布了文章4 月 28 日
5 段链路 各自必须有独立预算:VAD(80ms) + ASR 流式首包(280ms) + Prompt 装配(40ms) + LLM 首 Token(600ms) + TTS 首包(200ms)
发布了文章4 月 27 日
模型选型:默认 large-v3 → 换成 distil-whisper-large-v3 (蒸馏版),精度损失 < 1.5% WER,推理速度 5.4×
发布了文章4 月 25 日
系统音频采集走 OS 层(macOS Core Audio Tap / Windows WASAPI Loopback),绕开浏览器,600ms → 200ms
发布了文章4 月 24 日
实时语音问答场景对延迟极度敏感。面试官问完问题到候选人开口回答,通常只有2-3秒的思考缓冲。本文从ASR、LLM推理、网络传输三个层面,拆解实时面试辅助系统(面试copilot)把端到端延迟从常见的2-3秒压缩到1秒以内的工程实现。