公式 vLLM 0.11.0 イメージを benchmark 専用ランタイムへ裁断する

このプロジェクトは公式 vLLM 0.11.0 イメージを出発点にしています。目的は benchmark クライアントの使い勝手を残しつつ、不要な実行時要素を削ることです。

プロジェクト概要

公式 vllm/vllm-openai:v0.11.0 の依存関係、benchmark CLI、tokenizer、データセットサンプリング、リクエスト関数、補助スクリプトを残します。

用途は、外部 OpenAI 互換サービスを測る benchmark 専用コンテナです。サービス版の比較、小さな実行環境からの測定、vLLM 0.11.0 のコマンド習慣維持に向いています。

ビルドでは benchmark 入口、OpenAI 互換リクエスト依存、tokenizer 関連依存、補助スクリプトを残します。サーバー部品、開発ツール、一時キャッシュ、大きなテストファイルは最終イメージから外します。

入口は vllm.entrypoints.cli.main:main に対応させます。これにより慣れた benchmark コマンドを残しつつ、イメージの責務を限定できます。