Skip to content

卷积性能

卷积操作的详细基准测试。

高斯模糊

不同内核大小 (4K 图像)

内核CPU (ms)GPU (ms)加速比
3×312.50.431.3×
5×545.21.237.7×
7×778.41.843.6×
9×9110.22.445.9×
15×15120.53.831.7×

不同图像尺寸 (5×5 内核)

图像CPU (ms)GPU (ms)加速比
HD3.20.216.0×
FHD10.50.521.0×
4K45.21.237.7×
8K180.44.540.1×

Sobel 边缘检测

图像CPU (ms)GPU (ms)加速比
HD8.10.327.0×
FHD18.20.536.4×
4K38.10.942.3×
8K150.23.246.9×

自定义内核

7×7 自定义卷积核:

图像CPU (ms)GPU (ms)加速比
HD15.20.530.4×
FHD32.41.032.4×
4K65.32.131.1×
8K260.18.231.7×

优化说明

  • 所有内核使用共享内存分块
  • 内核大小 ≤ 15 时性能最优
  • 大内核在可能时使用可分离卷积

返回基准测试

基准测试概览

Released under the MIT License.