리눅스에서 vLLM 설치

1. python 설치

sudo apt install python3-pip

 

1번과 2번 옵션이 있다. 2번 옵션으로 가겠다.

왜냐하면 복잡한 의존성과 개발 환경 설정이 모델에따라 다른 경우가 많아 uv를 통한 가상화 환경이 유리하기 때문.

1번 옵션
# pip 설정 파일에 보호 기능을 비활성화하는 옵션을 추가
python3 -m pip config set global.break-system-packages true
(또는 pip install vllm --break-system-packages)

# vLLM 설치
pip install vllm

2번 옵션
# uv 설치 - 설치를 원하는 폴더로 이동해서 실행한다. (권장방법이라는데?)
curl -LsSf https://astral.sh/uv/install.sh | sh

#또는 pip으로 설치 가능 (난 이렇게 설치. 여러방법으로 설치가능 하도록 제공함)
pip install uv

 

2. uv를 설치했다면 아래 명령으로 새로운 Python environment 생성 가능.

uv venv --python 3.12 --seed # python3.12버전으로 가상화폴더(.venv) 생성

 

3. 가상화 활성화

source .venv/bin/activate # 가상화 활성화

 

가상환경을 활성화 하면 프롬프트 앞에 '(????)' 괄호로 가상환경이 활성화 됨을 알 수 있다.

which python 입력시 ./venv 안의 python 이 출력된다. which pip 도 마찬가지.

 

참고로 가상화 비활성화는 아래 명령어

deactivate # 가상화 비활성화

 

4. 가상화 공간에서 vLLM 설치

# vLLM과 필요한 의존성 패키지를 설치합니다.
# uv가 압도적으로 빠른 의존성 해결 및 설치 속도를 보여줍니다.
uv pip install vllm

 

# Load and run the model:
vllm serve "google/gemma-3-1b-it"

 

# Call the server using curl:
curl -X POST "http://localhost:8000/v1/chat/completions" \
-H "Content-Type: application/json" \
--data '{
"model": "google/gemma-3-1b-it",
"messages": [
{
"role": "user",
"content": "What is the capital of France?"
}
]
}'

- 끝 -

 

<번외 도커>

# Deploy with docker on Linux:
docker run --runtime nvidia --gpus all \
--name my_vllm_container \
-v ~/.cache/huggingface:/root/.cache/huggingface \
  --env "HUGGING_FACE_HUB_TOKEN=<secret>" \
-p 8000:8000 \
--ipc=host \
vllm/vllm-openai:latest \
--model google/gemma-3-1b-it
# Load and run the model:
docker exec -it my_vllm_container bash -c "vllm serve google/gemma-3-1b-it"
# Call the server using curl:
curl -X POST "http://localhost:8000/v1/chat/completions" \
-H "Content-Type: application/json" \
--data '{
"model": "google/gemma-3-1b-it",
"messages": [
{
"role": "user",
"content": "What is the capital of France?"
}
]
}'

 

이 글을 공유하기

댓글

Designed by JB FACTORY