OPENBENCHMARK

LLM Inference Telemetry
运行中
性能图谱 TTFT (ms) × 吞吐 (tok/s)
理想区 · 快且低延迟
吞吐时间线
对比矩阵
指标说明

TPS · tokens/s

解码窗口(末 token − 首 token)内每秒生成的输出 token 数,已剔除 TTFT,越高解码越快;缓冲式响应(首字节前就生成完)按端到端 输出/总时间 计。统一 max_tokens=512

TTFT · time to first token

请求到首个 token 的延迟,含网络往返与预处理(连接建立单列为 connect_ms),决定交互响应感。

P50 / P95 / P99

百分位:P50 典型值,P95/P99 表示尾部稳定性,越接近均值越稳。

稳定性 · CV

稳定性 = TPS 变异系数 CV(标准差/均值)。CV 越低越稳;TPS 或 TTFT 抖动超阈值标记“可疑”并从“最快/最低延迟”排名剔除。

性能图谱

散点越靠左上越好(低延迟 + 高吞吐)。点击点或表格行可跨视图高亮对比。