GPU卡虚拟化技术的优劣势对比

方案类型 代表产品 方案概述 优势 劣势
1 Mdev框架 vGPU 属于时分的共享产品。它通过vfio-mdev提供了一个隔离性非常高的的硬件环境,主要面向的是虚拟机产品。其共享模块在Nvidia driver之下
来自NVIDIA官方,可靠性和安全性高 不支持容器,虚拟机在使用上不灵活;无法动态调整资源比例;有一定的共享损耗;无法定制化开发需要购买license授权
2 CUDA聚合 MPS MPS是Nvidia官方推出的GPU共享组件,属于空分。它通过将多个任务合并成一个context共享GPU算力,所有任务共同使用显存。它位于Cuda driver API和Nvidia Driver之间。
性能最优在多任务共享的场景下,当任务使用的资源可同时被满足,JCT基本没有影响 错误互相影响,如果一个任务退出(包括被使用者停止和任务本身出错等),如果该任务正在执行kernel,那么和该任务共同share IPC和UVM的任务也会一同出错退出,无法在开发训练场景上大规模使用;没有显存隔离,只能粗略限制资源无法定制化开发
3 MIG MIG 硬件级虚拟化,对物理卡上能用的物理资源进行切分,这些资源包括:系统通道、控制总线、算力单元(TPC)、全局显存、L2 cache、数据总线等;然后将分块后的资源重新组合,让每个切分后的子GPU 能够做到数据保护、故障隔离独立、服务稳定。 1)k8s高版本原生支持
2)故障隔离稳定
1)仅A100等高端卡型支持
2)SM片不能被完全平均分配,存在算力损耗(以A100为例,A100 卡总共有108 SMs,最大可以为7个MIG实例,则每个MIG实例只有14个SM 14*7 = 98 SMs,有10个SM将无法使用)
4 CUDA劫持 rCUDA/vCUDA CUDA劫持是较多方案选择的共享方法,属于时分。它通过劫持对Cuda driver API的调用来做到资源隔离。共享模块一般位于在Cuda driver API之上。
1)支持GPU远程调用
2)API开源,是非NVIDIA官方技术人员能够较容易实现的共享技术
1)远程调用存在带宽性能的损耗
2)CUDA库升级活跃,当CUDA库升级时,劫持方案也需要不断适配,损耗人力;
3)难以覆盖所有场景,隔离不一定准确;
4)安全性低,用户可以绕过限制;
5)对用户有少量影响,需要适配;
6)无法提供算力精准限制的能力
5 内核劫持 mGPU 属于时分,通过新的内核驱动模块,为容器提供了虚拟的GPU设备,劫持了对Nvidia driver的调用。它可以严格限制显存,通过时间片的方式限制算力。它位于Cuda driver API和Nvidia Driver之间。 安全性高共享损耗小NVIDIA Driver的更新更少,适配需求小 OS有一定依赖;研发困难,对开发要求高资源碎片化

原创文章,作者:AIRF,如若转载,请注明出处:http://www.ai-rf.com/index.php/2023/08/03/gpu%e5%8d%a1%e8%99%9a%e6%8b%9f%e5%8c%96%e6%8a%80%e6%9c%af%e7%9a%84%e4%bc%98%e5%8a%a3%e5%8a%bf%e5%af%b9%e6%af%94/

(0)
AIRFAIRF
上一篇 2023年8月2日
下一篇 2023年8月3日

相关推荐

  • Smartctl搭配Storcli工具定位硬盘

    前言 工作中想拔掉系统下的/dev/sdd硬盘,但是使用smartctl -i /dev/sdx查看的SN是有问题的,后来发现因为硬盘是SATA盘,所以下面介绍各种盘的查看SN的方…

    2024年6月17日
  • RAID卡一致性检查 概念解读

    相关原理解释 PR(Patrol Read):硬盘巡读功能,针对阵列卡下组建RAID 的HDD 盘(SSD 默认是关闭的)。RAID 卡下发verify 指令给硬盘,硬盘FW 对物…

    硬件天地 2025年2月20日
  • GPU虚拟化技术详解(附讲解视频)

    GPU虚拟化技术: 1 GPU 和软件架构 GPU可以用于图形渲染,GPU 作为加速图形绘制的芯片时,它主要面向的产品主要是会集中在 PC 和游戏两个市场。也能够用于高性能计算领域…

    硬件天地 2023年5月29日
  • StorCLI工具日志收集分析

    工具名称​​:storcli(LSI/Broadcom RAID 卡管理工具) ​​用途​​:收集服务器 RAID 控制器的详细硬件配置与运行状态,用于存储系统故障排查或健康检查。…

    硬件天地 2025年7月24日
  • IPMI管理工具使用方法

    前言 最近需要对多台服务进行控制,通过服务器的 BMC 控制台去控制太麻烦,服务器刚好支持 IPMI 协议,这里记录下常用的几条命令备忘。 什么是 IPMI 智能平台管理接口(In…

    硬件天地 2021年12月31日
  • 查看RAID卡一致性检查状态 命令及关闭方法

    ./storcli64 /call show cc ./storcli64 /call set cc=off命令,关闭CC功能。 ./storcli64 /call show cc…

    2025年2月19日
  • 浪潮NF8480 M5服务器HBA卡BUG处理

    前景提示 浪潮8480M5型号服务器在安装Redhat7.6操作系统并安装存储多路径软件后重启服务器报错导致系统无法进入 处理方法 1.更新HBA卡驱动1.1 安装需要提前安装开发…

    硬件天地 2021年12月30日
  • H3C服务器红灯故障解决方案

    1.现象描述 巡检部门巡检现场发现H3C服务器红灯报警,现场查看服务器状态,现场查看后未发现任何故障,收集带外日志信息也未发现任何告警 2.解决问题 更换两次主板后无果,将服务器进…

    硬件天地 2021年11月21日
  • 操作系统分配存储时网络无法正常连接

    一.问题描述 生产环境中某操作系统并插网线后在系统下网口状态为DOWN,HBA卡网卡口状态显示正常,但无法与光纤交换机进行互信 二.排查问题 查看服务器网卡灯是否正常闪烁查看网线与…

    硬件天地 2021年11月21日
  • U盘安装Windows Server 2016入坑篇

    windows server版安装报错吗???安装提示cannot open the required file X:Sourceslinstall.wim????不用慌直接为你解…

    硬件天地 2023年7月17日

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注