OPENBENCHMARK

LLM Inference Telemetry
运行中
性能图谱 TTFT (ms) × 吞吐 (tok/s)
理想区 · 快且低延迟
吞吐时间线
对比矩阵
指标说明

TPS · tokens/s

每秒生成的输出 token 数,越高解码越快。统一 max_tokens=2048

TTFT · time to first token

请求到首个 token 的延迟,含网络往返与预处理,决定交互响应感。

P50 / P95 / P99

百分位:P50 典型值,P95/P99 表示尾部稳定性,越接近均值越稳。

性能图谱

散点越靠左上越好(低延迟 + 高吞吐)。点击点或表格行可跨视图高亮对比。