量子数据分析云
Home
  • web基础
  • DWF
  • 面试经验
  • Javascript
  • CSS
  • Node
  • Webpack
  • Vue
  • spider
  • Typescript
  • VScode
  • pytorch
  • 快捷键
  • X11
  • Linux
  • Windows
  • CPU
  • GPU
  • 开发板
  • 开发软件
  • 数字电路
  • 屏幕
  • U盘
  • Gitea
  • Vuepress
  • Geant4
  • ROOT
  • Matplotlib
  • 算子
  • ETH
  • VisualStudio
  • C语言
  • Python
  • 网络
  • 二进制
  • 概述
  • 金融学
  • 概率论
  • 核物理
  • 算法
  • 粒子物理
  • AI Infra
工具箱
  • 华为
Home
  • web基础
  • DWF
  • 面试经验
  • Javascript
  • CSS
  • Node
  • Webpack
  • Vue
  • spider
  • Typescript
  • VScode
  • pytorch
  • 快捷键
  • X11
  • Linux
  • Windows
  • CPU
  • GPU
  • 开发板
  • 开发软件
  • 数字电路
  • 屏幕
  • U盘
  • Gitea
  • Vuepress
  • Geant4
  • ROOT
  • Matplotlib
  • 算子
  • ETH
  • VisualStudio
  • C语言
  • Python
  • 网络
  • 二进制
  • 概述
  • 金融学
  • 概率论
  • 核物理
  • 算法
  • 粒子物理
  • AI Infra
工具箱
  • 华为
  • AMD

GPU

如何在硬件上进行计算

  • SGEMM选择BK的大小不能为4:Gemini回答

    • 微内核(Micro-kernel)对 K 维度的要求: 现代高性能 GEMM 库(如 cuBLAS、CUTLASS)在底层会使用经过高度优化的微内核。这些微内核通常要求内积的公共维度 K 是一个特定的较小整数的倍数,而 8 是一个非常常见的“友好”数字。
    • 向量化加载: GPU 通常按 32 字节或 128 字节(对应 8 个或 32 个单精度浮点数)的粒度高效地从内存加载数据。
  • zomi整理的AI和GPU相关课程

Last Updated:: 9/30/25, 11:02 AM
Contributors: greatofdream