性能指南

N-Body 粒子仿真系统的优化策略和性能调优

N-Body 粒子仿真系统的优化策略和性能调优。

📑 目录

粒子数	Direct N²	Barnes-Hut (θ=0.5)	Spatial Hash
10,000	60+	60+	60+
100,000	~8	60+	60+
1,000,000	N/A	~25	60+

粒子数	粒子数据	Barnes-Hut	Spatial Hash	总计
10万	~5 MB	~10 MB	~2 MB	~17 MB
100万	~50 MB	~100 MB	~20 MB	~170 MB

对于 Direct N² 核函数，共享内存减少全局内存流量 ~50%。

确保合并内存访问：

// 好：合并访问
int i = blockIdx.x * blockDim.x + threadIdx.x;
float x = pos_x[i];

最优单元格大小等于截断半径：

float optimal_cell_size = cutoff_radius;

系统级性能分析：

nsys profile --stats=true -o report ./nbody_sim 100000

核函数级详细分析：

ncu --set full -o report.ncu-rep ./nbody_sim 100000