解码窗口(末 token − 首 token)内每秒生成的输出 token 数,已剔除 TTFT,越高解码越快;缓冲式响应(首字节前就生成完)按端到端 输出/总时间 计。统一 max_tokens=512。
请求到首个 token 的延迟,含网络往返与预处理(连接建立单列为 connect_ms),决定交互响应感。
百分位:P50 典型值,P95/P99 表示尾部稳定性,越接近均值越稳。
稳定性 = TPS 变异系数 CV(标准差/均值)。CV 越低越稳;TPS 或 TTFT 抖动超阈值标记“可疑”并从“最快/最低延迟”排名剔除。
散点越靠左上越好(低延迟 + 高吞吐)。点击点或表格行可跨视图高亮对比。