📘Documentation | 🛠️Quick Start | 🤔Reporting Issues

👋 join us on

紹介

LMDeployは、MMRazorおよびMMDeployチームによって開発された、LLMの圧縮、デプロイ、およびサービングのためのツールキットです。以下の主要な機能を備えています：

効率的な推論：LMDeployは、persistent batch（連続バッチ）、ブロック化されたKVキャッシュ、動的分割と融合、テンソル並列、高性能なCUDAカーネルなどの主要な機能を導入し、vLLMよりも最大1.8倍のリクエストスループットを提供します。
効果的な量子化：LMDeployは、重みのみおよびk/vの量子化をサポートし、4ビットの推論性能はFP16の2.4倍です。量子化の品質はOpenCompassの評価を通じて確認されています。
簡単な分散サーバー：リクエスト分散サービスを活用することで、LMDeployは複数のマシンおよびカードにわたるマルチモデルサービスのデプロイを容易にします。
インタラクティブな推論モード：マルチラウンドの対話プロセス中にアテンションのk/vをキャッシュすることで、エンジンは対話履歴を記憶し、履歴セッションの繰り返し処理を回避します。
優れた互換性：LMDeployは、KV Cache Quant、AWQ、およびAutomatic Prefix Cachingを同時に使用することをサポートします。

パフォーマンス

LMDeploy TurboMindエンジンは卓越した推論能力を持ち、さまざまな規模のモデルで、vLLMの1.36〜1.85倍のリクエストを毎秒処理します。静的推論能力の面では、TurboMind 4ビットモデルの推論速度（out token/s）はFP16/BF16推論をはるかに上回ります。小さなバッチでは、2.4倍に向上します。

詳細な推論ベンチマークについては、以下のリンクを参照してください：

A100
4090
3090
2080

サポートされているモデル

LLMs

VLMs

Llama (7B - 65B)
Llama2 (7B - 70B)
Llama3 (8B, 70B)
Llama3.1 (8B, 70B)
Llama3.2 (1B, 3B)
InternLM (7B - 20B)
InternLM2 (7B - 20B)
InternLM2.5 (7B)
Qwen (1.8B - 72B)
Qwen1.5 (0.5B - 110B)
Qwen1.5 - MoE (0.5B - 72B)
Qwen2 (0.5B - 72B)
Baichuan (7B)
Baichuan2 (7B-13B)
Code Llama (7B - 34B)
ChatGLM2 (6B)
GLM4 (9B)
CodeGeeX4 (9B)
Falcon (7B - 180B)
YI (6B-34B)
Mistral (7B)
DeepSeek-MoE (16B)
DeepSeek-V2 (16B, 236B)
Mixtral (8x7B, 8x22B)
Gemma (2B - 7B)
Dbrx (132B)
StarCoder2 (3B - 15B)
Phi-3-mini (3.8B)
Phi-3.5-mini (3.8B)
Phi-3.5-MoE (16x3.8B)
MiniCPM3 (4B)

LLaVA(1.5,1.6) (7B-34B)
InternLM-XComposer2 (7B, 4khd-7B)
InternLM-XComposer2.5 (7B)
Qwen-VL (7B)
DeepSeek-VL (7B)
InternVL-Chat (v1.1-v1.5)
InternVL2 (1B-76B)
MiniGeminiLlama (7B)
CogVLM-Chat (17B)
CogVLM2-Chat (19B)
MiniCPM-Llama3-V-2_5
MiniCPM-V-2_6
Phi-3-vision (4.2B)
Phi-3.5-vision (4.2B)
GLM-4V (9B)
Llama3.2-vision (11B, 90B)

LMDeployは、TurboMindおよびPyTorchの2つの推論エンジンを開発しました。それぞれ異なる焦点を持っています。前者は推論性能の究極の最適化を目指し、後者は完全にPythonで開発されており、開発者の障壁を下げることを目指しています。

サポートされているモデルの種類や推論データタイプに違いがあります。各エンジンの能力についてはこの表を参照し、実際のニーズに最適なものを選択してください。

クイックスタート

インストール

クリーンなconda環境（Python 3.8 - 3.12）でlmdeployをインストールすることをお勧めします。

conda create -n lmdeploy python=3.8 -y
conda activate lmdeploy
pip install lmdeploy

v0.3.0から、デフォルトの事前構築済みパッケージはCUDA 12でコンパイルされています。 CUDA 11+プラットフォームでのインストールに関する情報、またはソースからのビルド手順については、インストールガイドを参照してください。

オフラインバッチ推論

import lmdeploy
pipe = lmdeploy.pipeline("internlm/internlm2-chat-7b")
response = pipe(["Hi, pls intro yourself", "Shanghai is"])
print(response)

Note

デフォルトでは、LMDeployはHuggingFaceからモデルをダウンロードします。ModelScopeからモデルを使用する場合は、pip install modelscopeコマンドでModelScopeをインストールし、環境変数を設定してください：

export LMDEPLOY_USE_MODELSCOPE=True

openMind Hubからモデルを使用する場合は、pip install openmind_hubコマンドでopenMind Hubをインストールし、環境変数を設定してください：

export LMDEPLOY_USE_OPENMIND_HUB=True

推論パイプラインに関する詳細情報はこちらを参照してください。

チュートリアル

LMDeployの基本的な使用方法については、getting_startedセクションを参照してください。

詳細なユーザーガイドと高度なガイドについては、チュートリアルを参照してください：

ユーザーガイド
高度なガイド
- 推論エンジン - TurboMind
- 推論エンジン - PyTorch
- カスタムチャットテンプレート
- 新しいモデルの追加
- gemmチューニング
- 長文推論
- マルチモデル推論サービス

サードパーティプロジェクト

LMDeployを使用してNVIDIA JetsonプラットフォームでLLMをオフラインでデプロイ：LMDeploy-Jetson
LMDeployとBentoMLを使用してLLMをデプロイするためのサンプルプロジェクト：BentoLMDeploy

貢献

LMDeployへのすべての貢献に感謝します。貢献ガイドラインについては、CONTRIBUTING.mdを参照してください。

謝辞

FasterTransformer
llm-awq
vLLM
DeepSpeed-MII

引用

@misc{2023lmdeploy,
    title={LMDeploy: A Toolkit for Compressing, Deploying, and Serving LLM},
    author={LMDeploy Contributors},
    howpublished = {\url{https://github.com/InternLM/lmdeploy}},
    year={2023}
}

ライセンス

このプロジェクトはApache 2.0ライセンスの下でリリースされています。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_ja.md

README_ja.md

最新ニュース 🎉

紹介

パフォーマンス

サポートされているモデル

クイックスタート

インストール

オフラインバッチ推論

チュートリアル

サードパーティプロジェクト

貢献

謝辞

引用

ライセンス

Files

README_ja.md

Latest commit

History

README_ja.md

File metadata and controls

最新ニュース 🎉

紹介

パフォーマンス

サポートされているモデル

クイックスタート

インストール

オフラインバッチ推論

チュートリアル

サードパーティプロジェクト

貢献

謝辞

引用

ライセンス