vLLM benchmark クライアントをオンラインサービス負荷試験向けに削る

標準の vLLM 環境には推論エンジン、CUDA コンポーネント、分散実行、サーバー機能が含まれます。クライアント側だけの負荷試験に必要なのは、リクエスト生成、並行制御、レイテンシ統計、結果出力です。

プロジェクト概要

Python パッケージ、CLI 入口、リクエスト生成器、非同期 HTTP クライアント、統計モジュール、mock OpenAI サービステストを残しています。

用途は、既に動いている OpenAI 互換サービスを軽量に負荷試験することです。ゲートウェイ試験、移行前後の比較、サンプリング設定ごとの遅延確認に向いています。

CLI は vllm bench serve の形を保ちます。tokenizer と生成器で prompt を作り、並行数を制御し、非同期 HTTP リクエストを送り、初回 token までの時間、総遅延、成功率、スループット、エラー種別を記録します。

mock サービスのテストにより、実モデルなしでリクエスト形式、スケジューリング、統計計算を確認できます。実サービス試験と mock 試験は同じクライアント入口を使います。