量子数据分析云
Home
低代码
低代码
web基础
DWF
前端
前端
面试经验
Javascript
CSS
Node
Webpack
Vue
spider
后端
后端
Typescript
桌面
桌面
VScode
深度学习
深度学习
pytorch
操作系统
操作系统
快捷键
X11
Linux
Windows
硬件
硬件
CPU
GPU
开发板
开发软件
数字电路
屏幕
U盘
软件
软件
Gitea
Vuepress
Geant4
ROOT
Matplotlib
算子
ETH
VisualStudio
编程语言
编程语言
C语言
Python
安全
安全
网络
二进制
理论
理论
概述
金融学
概率论
核物理
算法
粒子物理
AI Infra
工具箱
求职
求职
华为
GPU
如何在硬件上进行计算
SGEMM选择BK的大小不能为4:Gemini回答
微内核(Micro-kernel)对 K 维度的要求: 现代高性能 GEMM 库(如 cuBLAS、CUTLASS)在底层会使用经过高度优化的微内核。这些微内核通常要求内积的公共维度 K 是一个特定的较小整数的倍数,而 8 是一个非常常见的“友好”数字。
向量化加载: GPU 通常按 32 字节或 128 字节(对应 8 个或 32 个单精度浮点数)的粒度高效地从内存加载数据。
zomi整理的AI和GPU相关课程