分类

人工智能Agent

Ollama 部署五大崩溃:llama runner terminated exit 2、10 分钟后停止服务、GPU 不释放显存、GGUF 断言失败、server not responding——逐一修复指南

Ollama 部署五大崩溃:llama runner terminated exit 2、10 分钟后停止服务、GPU 不释放显存、GGUF 断言失败、server not responding——逐一修复指南

Ollama 是大多数人第一个接触的本地大模型工具。但它的问题也是最多的——不是因为它质量差,而是因为它被用在太多奇奇怪怪的硬件组合上了。


一、Ollama vs vLLM vs SGLa...

16 0
Dify + vLLM 对接崩溃实录:CredentialsValidateFailedError 404、插件 SDK 崩溃、vLLM 引擎级报错——逐一修复指南

Dify + vLLM 对接崩溃实录:CredentialsValidateFailedError 404、插件 SDK 崩溃、vLLM 引擎级报错——逐一修复指南

Dify 是中国最火的自部署 AI 应用平台,vLLM 是生产级推理引擎。但把它们连起来——插件 404、SDK 版本冲突、模型直接炸引擎——这些坑比想象中多得多。


一、为什么 Dify ...

12 0
SGLang + DeepSeek-V3 部署五大崩溃:DP Attention CUDA OOM 炸穿 8×H100、flashinfer 编译失败、NCCL SIGSEGV 多节点暴毙——逐一修复指南

SGLang + DeepSeek-V3 部署五大崩溃:DP Attention CUDA OOM 炸穿 8×H100、flashinfer 编译失败、NCCL SIGSEGV 多节点暴毙——逐一修复指南

如果说 vLLM 是推理引擎里的"老牌劲旅",那 SGLang 就是 DeepSeek、xAI、NVIDIA 官方都在用的"新生代杀手"。但它的坑不比 vLLM 少——甚至更隐蔽。


一、为...

4 0
发现更多