每秒生成的输出 token 数,越高解码越快。统一 max_tokens=2048。
max_tokens=2048
请求到首个 token 的延迟,含网络往返与预处理,决定交互响应感。
百分位:P50 典型值,P95/P99 表示尾部稳定性,越接近均值越稳。
散点越靠左上越好(低延迟 + 高吞吐)。点击点或表格行可跨视图高亮对比。