CUDA的基础知识

文章目录

  • 数据精度
  • CUDA概念
    • 线程&线程块&线程网络&计算核心
    • GPU规格参数
    • 内存
  • GPU并行方式
    • 数据并行
    • 流水并行
    • 张量并行
    • 混合专家系统

数据精度

  • FP32 是单精度浮点数,用8bit 表示指数,23bit 表示小数;
  • FP16 是半精度浮点数,用5bit 表示指数,10bit 表示小数;
  • BF16 是对FP32单精度浮点数截断数据,即用8bit 表示指数,7bit 表示小数
    在这里插入图片描述
  • 为什么聚焦半精度?
  1. 内存占用更少:fp16 模型占用的内存只需 fp32 模型的一半:
    • 模型训练时,可以用更大的batchsize;
    • 模型训练时,GPU并行时的通信量大幅减少,大幅减少等待时间,加快数据的流通;
  2. 计算更快:主流 GPU 都有针对 fp16 的计算进行优化,在这些 GPU 中,半精度的计算吞吐量可以是单精度的 2-8 倍;

CUDA概念

线程&线程块&线程网络&计算核心

  • CUDA中线程可以分成三个层次:线程、线程块和线程网络
    • 线程(Thread):CUDA 中基本执行单元,由硬件支持、开销很小,每个线程执行相同代码;
    • 线程块(Block):若干线程的分组,Block 内一个块至多512个线程、或1024个线程(根据不同的 GPU 规格),线程块可以是一维、二维或者三维的;
    • 线程网络(Grid):若干线程块 Block 的网格,Grid 是一维和二维的
  • GPU 有很多线程,在CUDA里被称为 Thread,同一组 Thread归为一个Block,而Block 又会被组织成一个Grid
    在这里插入图片描述
  • GPU 上有很多计算核心[ Streaming Multiprocessor (SM)], SM 是一块硬件,包含固定数量的运算单元,寄存器和缓存。
  • 在具体的硬件执行中,一个SM会同时执行一组线程,在CUDA 里叫warp,直接可以理解这组硬件线程warp会在这个 SM 上同时执行一部分指令,一组的数量一般为32或者64个线程
  • 一个 Block 会被绑定到一个SM上,这些线程组会被相应的调度器来进行调度,在逻辑层面上1024个线程同时执行,但实际上在硬件上是一组线程同时执行。假如一个SM同时能执行 64个线程,但一个Block 有1024个线程,那这 1024 个线程是分 1024 / 64 = 16 1024/64=16 1024/64=16次执行

  • GPU 在管理线程的时候是以block为单元调度到 SM 上执行。每个 block 中以warp(一般32个线程或64线程) 作为一次执行的单位(真正的同时执行)
  1. 一个GPU包含多个 SM ,而每个SM包含多个 Core,SM 支持并发执行多达几百的Thread 。
  2. 一个Block只能调度到一个 SM 上运行,直到Thread Block运行完毕。一个SM可以同时运行多个Block (因为有多个 Core)

GPU规格参数

不同的GPU规格参数不一样,执行参数不同,比如 Fermi 架构:

  • 每一个SM上最多同时执行 8 个 Block。(不管 Block 大小)
  • 每一个SM上最多同时执行 48 个 warp。
  • 每一个SM上最多同时执行 48 × 32 = 1536 48 \times 32=1536 48×32=1536 个线程。

内存

  • 一个 Block 会绑定在一个 SM 上,同时一个 Block内的Thread共享一块 ShareMemory(一般是SM的一级缓存,越靠近SM的内存就越快)。
  • GPU和CPU也一样有着多级 Cache 还有寄存器的架构,把全局内存的数据加载到共享内存上再去处理可以有效的加速。
    在这里插入图片描述

GPU并行方式

  • 数据并行(Data Parallelism):在不同的GPU上运行同一批数据的不同子集;
  • 流水并行(Pipeline Parallelism):在不同的GPU上运行模型的不同层;
  • 张量并行(Tensor Parallelism):将单个数学运算(如矩阵乘法)拆分到不同的GPU上运行;
  • 混合专家系统(Mixture-of-Experts):只用模型每一层中的一小部分来处理
    在这里插入图片描述

数据并行

  • 将整个模型放在一块GPU里,再复制到每一块GPU上,同时进行正向传播和反向误差传播,相当于加大batch_size。
  • 每个GPU都加载模型参数,这些GPU称为工作节点(workers),为每个GPU分配分配不同的数据子集同时进行处理,分别求解梯度,然后求解所有节点的平均梯度,每个节点各自进行反向传播

  • 各节点的同步更新策略
  1. 单独计算每个节点上的梯度
  2. 计算节点之间的平均梯度(阻塞,涉及大量数据传输,影响训练速度)
  3. 单独计算每个节点相同的新参数
  • Pytorch对于数据并行有很好的支持,数据并行也是最常用的GPU并行加速方法之一。

  • 将模型按层分割,不同的层被分发到不同的GPU上运行。每个GPU上只有部分参数,因此每个部分的模型消耗GPU的显存成比例减少,常用于GPU显存不够,无法将一整个模型放在GPU上
    请添加图片描述

流水并行

  • layer的输入和输出之间存在顺序依赖关系,因此在一个GPU等待其前一个GPU的输出作为其输入时,朴素的实现会导致出现大量空闲时间。这些空闲时间被称作“气泡”,而在这些等待的过程中,空闲的机器本可以继续进行计算。
    请添加图片描述

张量并行

  • 张量并行:如果在一个layer内“水平”拆分数据。许多现代模型(如Transformer)的计算瓶颈是将激活值与权重相乘

  • 矩阵乘法可以看作是若干对行和列的点积:可以在不同的 GPU 上计算独立的点积,也可以在不同的 GPU 上计算每个点积的一部分,然后相加得到结果。

  • 无论采用哪种策略,都可以将权重矩阵切分为大小均匀的“shards”,不同的GPU负责不同的部分,要得到完整矩阵的结果,需要进行通信将不同部分的结果进行整合

混合专家系统

  • 混合专家系统(MoE)是指,对于任意输入只用一小部分网络用于计算其输出在拥有多组权重的情况下,网络可以在推理时通过门控机制选择要使用的一组权重,这可以在不增加计算成本的情况下获得更多参数。
  • 每组权重都被称为“专家(experts)”,理想状态下,网络能够学会为每个专家分配专门的计算任务不同的专家可以托管在不同的GPU上,为扩大模型使用的GPU数量提供一种明确的方法。
    请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/581185.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot常用注解与注意事项

Spring Boot 是一个用于快速开发、运行和管理 Spring 应用程序的框架。它大量使用了注解(Annotations)来简化配置和开发流程。 以下是一些 Spring Boot 中常用的注解及其注意事项: 1.常用注解 SpringBootApplication 这是一个组合注解&#…

OpenHarmony 项目实战:智能体重秤

一、简介 本 demo 基于 OpenHarmony3.1Beta 版本开发,该样例能够接入数字管家应用,通过数字管家应用监测体重秤上报数据,获得当前测量到的体重,身高,并在应用端形成一段时间内记录的体重值,以折线图的形式…

vivado Aurora 8B/10B IP核(4)-数据流接口(Streaming Interface)

Streaming 接口 Transmitting and Receiving Data(发送和接收数据) 流式接口允许将Aurora 8B/10B通道用作管道。 初始化后,通道始终可用于写入,除非发送时 钟补偿序列。 核心数据传输符合AXI4-Stream协议。当s_axi_tx_tvalid被取…

OpenHarmony 实战开发——分布式购物车案例展示~

简介 分布式购物车demo 模拟的是我们购物时参加满减活动,进行拼单的场景;实现两人拼单时,其他一人添加商品到购物车,另外一人购物车列表能同步更新,且在购物车列表页面结算时,某一人结算对方也能实时知道结…

基于单片机的多功能电子万年历系统

摘要:该题目要求学生综合运用单片机原理、低频电子线路、数字电路与逻辑设计等相关知识,设计完成多功能电子万年历系统。通过完成设计任务,使学生掌握单片机设计开发的基本流程,增强学生动手实践能力,培养学生分析和解决实际问题的能力,为后续课程的学习和工作打下良好基础。 关…

特征的前期融合与后期融合在召回、粗排、精排应用

前期融合:先对所有特征做concat,再输入DNN,一般常见于精排模型 特点:线上推理代价大,若有n个候选item需要做n次模型计算 后期融合:把用户和物品特征分别输入不同的神经网络,不对用户和物品做融…

基于Springboot的玩具租赁系统(有报告)。Javaee项目,springboot项目。

演示视频: 基于Springboot的玩具租赁系统(有报告)。Javaee项目,springboot项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系结构&…

多用户商城系统哪个好,2024多用户商城系统这样选

在2024年选择适合的多用户商城系统是一项至关重要的决策,因为一个优秀的商城系统不仅可以提升用户体验,还能够帮助企业实现业务目标并取得长期成功。然而,在众多的选择中挑选出最适合的一个并不容易,需要综合考虑各种因素&#xf…

static page 项目

static page 项目 作者:不染心 博客地址:https://blog.csdn.net/qq_38234785 源码地址:https://mbd.pub/o/bread/ZpWVlJps 未经允许,不得转载 文档版本v1,还没写完持续更新 一、引言 1. 软件概述和背景 本软件是…

Python-软件设计-“帮助”小孩子自我行为(电脑端看短视频)约束

目录 前言一、方式一:网站访问拦截二、方式二:SW(电脑软件简称)启动拦截三、使用代码的方式将方式一和方式二结合成自动化程序部署四、其他拓展知识1.程序打包2、开机自启文件夹 五、报错的解决方式1、打包成软件后,运行那个软件时不执行或报…

【论文阅读】ViTAE:Vision transformer advanced by exploring intrinsic inductive bias

ViTAE:Vision transformer advanced by exploring intrinsic inductive bias 论文地址摘要:简介:3 方法论3.1 重温视觉变压器3.2 ViTAE3.3 缩减单元3.4 Normal cell3.5 模型细节 4 训练4.1 Implementation details4.2 Comparison with the state-of-the-…

Linxu系统服务管理,systemd知识/进程优先级/平均负载/php进程CPU100%怎么解决系列知识!

shell脚本(命令)放后台 sleep 300& 放到后台运行,脚本或命令要全路径 nohup:用户推出系统进程继续工作 【功能说明】 nohup 命令可以将程序以忽略挂起信号的方式运行起来,被运行程序的输出信息将不会显示到终端 如…

华为鸿蒙应用--封装通用标题栏:CommonTitleBar(鸿蒙工具)-ArkTs

0、效果图 自定义通用标题栏 支持左、中、右常规标题栏设置; 支持自定义视图; 支持搜索功能 一、CommTitleBar代码 import router from ohos.router; import { Constants } from ../../constants/Constants; import { StyleConstants } from ../../…

PostgreSQL 把多余字段转JSON

核心SQL: json_agg(json_build_object(kgrq, a.kgrq, jgrq, a.jgrq, sgdd, a.sgdd))

理解与使用Linux设备树编译器(DTC)

这里写目录标题 设备树简介设备树编译器(DTC)安装DTC使用DTC实例:编辑设备树小结参考资料 Linux设备树编译器(DTC)是一个关键工具,用于处理嵌入式Linux系统中的设备树文件。本文将介绍设备树的概念、DTC的基…

基于Docker + Locust的数据持久化性能测试系统

前几天给大家分享了如何使用Locust进行性能测试,但是在实际使用中会发现存在压测的结果无法保存的问题,比如在分布式部署情况下进行压测,每轮压测完成需要释放资源删除容器重新部署后,这段时间的压测结果就都丢失了,如…

一文讲解Android车载系统camera架构 - EVS

Android的camera开发中,使用最多的是camera2 以及现在Google主推的cameraX 架构,而这两个架构主要针对的是手机移动端上camera的流程。 而今天介绍的EVS(Exterior View System)架构是不同于camera2上的手机架构,针对Automotive的版本&#x…

【源码阅读】 Golang中的database/sql库源码探究

Note:文章待完结 文章目录 前言一、整体目录结构二、driver包1、驱动相关driver.Driver2、驱动连接:driver.Conn3、预处理结构:Stmt4、执行结果 driver.Result5、查询结果:driver.Rows6、driver.RowsAffected7、driver.Value8、Va…

vue-quill-editor富文本插件控制字数显示

最终效果 富文本编辑框&#xff0c;只统计内容&#xff0c;不包含标签以及样式&#xff0c;超出最大字数限制提示。 具体代码 html <div class"relative"><quillEditorv-model"form.nutriSuggestion"ref"myQuillEditor7":options&quo…

03-JAVA设计模式-策略模式

策略模式 什么是策略模式 策略模式&#xff08;Strategy Pattern&#xff09;是行为设计模式之一&#xff0c;它使你能在运行时改变对象的行为。在策略模式中&#xff0c;一个类的行为或其算法可以在运行时更改。这种类型的设计模式属于行为模式。 在策略模式中&#xff0c;…
最新文章