OllamaSetup.exe /DIR="d:\Ollama"

ollama run llama3.2    
# 执行以上命令如果没有该模型会去下载 llama3.2 模型

# 1. 拉取与删除模型
# pull
# 拉取远端模型到本地。
ollama pull <model>

# rm / remove
# 删除本地模型。
ollama rm <model>

# list / ls
# 列出所有本地模型。
ollama list


# 2. 运行模型
# run
# 交互模式运行模型，不退出。
ollama run <model>

# 可带系统信息与 prompt：
ollama run <model> -s "<system>" -p "<prompt>"

# run + script
# 从文件读取 prompt：
ollama run <model> < input.txt
# 当你输入 ollama run 进入聊天界面后，你不再是在操作命令行，而是在和 AI 对话。这时你可以使用以 / 开头的快捷指令来控制对话：
# /bye 或 /exit：最重要！ 退出聊天界面，返回命令行。
# /clear：清空当前的上下文记忆（开启一段新的对话）。
# /show info：查看当前模型的详细参数信息。
# /set parameter seed 123：设置随机种子（高级玩法，用于复现结果）。
# /help：在聊天中查看所有可用的快捷键。


# 3. 推理接口（一次性执行）
# generate
# 执行单次推理，输出文本。
ollama generate <model> -p "<prompt>"


# 4. 创建与修改模型
# create
# 用 Modelfile 创建本地模型。
ollama create <model-name> -f Modelfile


# cp
# 复制一个模型为新名字。
ollama cp <src> <dst>


# 5. 服务器相关
# serve
# 启动 Ollama 本地服务（默认 11434）。
ollama serve

# run serverless
# 当 ollama run 时会自动拉起后台服务，不需单独执行。


# 6. 模型信息
# show
# 查看模型元数据、参数、模板。
ollama show <model>


# 7. 专用参数
# 这些参数多数可用于 run/generate：
--num-predict <number>    限制输出 token 数
--temperature <float>     控制随机性
--top-k <int>             采样范围
--top-p <float>           核采样
--seed <int>              固定随机性
--format json             输出 JSON
--keepalive <seconds>     会话保持时间
--stream                  流式输出


# 8. Modelfile 指令
# 构建模型时使用：
FROM <model>：基础模型
SYSTEM "xxx"：设定系统提示
PARAMETER key=value：设定默认参数
TEMPLATE "xxx"：自定义 Chat 模板
LICENSE "xxx"：设置 License
ADAPTER <file> / WEIGHTS <file>：加载 LoRA 或额外权重


# 9. API（当 serve 运行时）
# REST 端点（默认 http://localhost:11434/api）：
/api/generate：文本生成
/api/chat：对话流式接口
/api/pull：远程拉取
/api/tags：本地模型列表

# 调用示例（curl）：
curl http://localhost:11434/api/generate \
  -d '{"model":"qwen2.5","prompt":"hello"}'


# 10. 进阶
# 自定义参数运行：
ollama run <model> --temperature 0.2 --top-p 0.9

# 持久会话（保留上下文）：
# 会话由模型内部缓存自动管理，无需额外命令。

echo "你是谁？" | ollama run deepseek-coder
# 或
ollama run deepseek-coder "Python 的 hello world 代码？"

ollama serve

{
  "response": "<partial-text>", // 部分生成的文本
  "done": false                 // 是否完成
}

pip install ollama

# 1. chat 方法
# 与模型进行对话生成，发送用户消息并获取模型响应：
ollama.chat(model='llama3.2', messages=[{'role': 'user', 'content': 'Why is the sky blue?'}])

# 2. generate 方法
# 用于文本生成任务。与 chat 方法类似，但是它只需要一个 prompt 参数：
ollama.generate(model='llama3.2', prompt='Why is the sky blue?')

# 3. list 方法
# 列出所有可用的模型：
ollama.list()

# 4. show 方法
# 显示指定模型的详细信息：
ollama.show('llama3.2')

# 5. create 方法
# 从现有模型创建新的模型：
ollama.create(model='example', from_='llama3.2', system="You are Mario from Super Mario Bros.")

# 6. copy 方法
# 复制模型到另一个位置：
ollama.copy('llama3.2', 'user/llama3.2')

# 7. delete 方法
# 删除指定模型：
ollama.delete('llama3.2')

# 8. pull 方法
# 从远程仓库拉取模型：
ollama.pull('llama3.2')

# 9. push 方法
# 将本地模型推送到远程仓库：
ollama.push('user/llama3.2')

# 10. embed 方法
# 生成文本嵌入：
ollama.embed(model='llama3.2', input='The sky is blue because of rayleigh scattering')

# 11. ps 方法
# 查看正在运行的模型列表：
ollama.ps()

ollama
# 选择启动方式 或
ollama launch claude --model qwen3-coder

# 安装ModelScope库
pip install modelscope

# 下载DeepSeek-Coder-7B（魔搭示例）
from modelscope.hub.snapshot_download import snapshot_download
# 下载到本地目录（建议SSD，如D:\models）
model_dir = snapshot_download(
    model_id="deepseek-ai/deepseek-coder-7b-base",
    cache_dir="D:/models"
)
print(f"模型下载路径：{model_dir}")

简介¶

安装¶

Windows 系统安装¶

模型运行¶

命令行运行¶

直接运行exe文件¶

相关命令¶

完整示例¶

自定义模型¶

服务管理¶

模型交互¶

API 交互¶

示例¶

python 使用¶

常用 API 方法¶

接入Vibe_Coding¶

模型导入¶

从魔搭社区导入模型¶

Ollama Open WebUI¶

Ollama Page Assist¶