卷积性能
卷积操作的详细基准测试。
高斯模糊
不同内核大小 (4K 图像)
| 内核 | CPU (ms) | GPU (ms) | 加速比 |
|---|---|---|---|
| 3×3 | 12.5 | 0.4 | 31.3× |
| 5×5 | 45.2 | 1.2 | 37.7× |
| 7×7 | 78.4 | 1.8 | 43.6× |
| 9×9 | 110.2 | 2.4 | 45.9× |
| 15×15 | 120.5 | 3.8 | 31.7× |
不同图像尺寸 (5×5 内核)
| 图像 | CPU (ms) | GPU (ms) | 加速比 |
|---|---|---|---|
| HD | 3.2 | 0.2 | 16.0× |
| FHD | 10.5 | 0.5 | 21.0× |
| 4K | 45.2 | 1.2 | 37.7× |
| 8K | 180.4 | 4.5 | 40.1× |
Sobel 边缘检测
| 图像 | CPU (ms) | GPU (ms) | 加速比 |
|---|---|---|---|
| HD | 8.1 | 0.3 | 27.0× |
| FHD | 18.2 | 0.5 | 36.4× |
| 4K | 38.1 | 0.9 | 42.3× |
| 8K | 150.2 | 3.2 | 46.9× |
自定义内核
7×7 自定义卷积核:
| 图像 | CPU (ms) | GPU (ms) | 加速比 |
|---|---|---|---|
| HD | 15.2 | 0.5 | 30.4× |
| FHD | 32.4 | 1.0 | 32.4× |
| 4K | 65.3 | 2.1 | 31.1× |
| 8K | 260.1 | 8.2 | 31.7× |
优化说明
- 所有内核使用共享内存分块
- 内核大小 ≤ 15 时性能最优
- 大内核在可能时使用可分离卷积