架构概览

Mini-ImagePipe 采用 DAG 原生运行时分层设计，重点解决三件事：执行确定性、内存行为可控、GPU 利用率可解释。

分层运行时模型

可将架构拆解为四层：

组件	主要职责	关键接口
`Pipeline`	图构建、输入连接、缓冲区生命周期	`addOperator()`、`connect()`、`setInput()`、`execute()`
`TaskGraph`	DAG 校验、拓扑排序、独立性分析	`validate()`、`getTopologicalOrder()`、`areIndependent()`
`DAGScheduler`	任务映射到流、跨流同步、错误传播	`execute()`、`setErrorCallback()`、内部 `insertSynchronization()`
`MemoryManager`	pinned/device 池化、异步分配模式、工作区管理	`allocateDevice()`、`allocatePinned()`、`allocateWorkspace()`

Pipeline::execute() 会先校验图结构，再生成拓扑执行序。校验失败时，立即返回 cudaErrorInvalidValue。

cpp

TaskGraph& graph = pipeline.getTaskGraph();
if (!graph.validate()) {
    return cudaErrorInvalidValue;
}
auto order = graph.getTopologicalOrder();

每个任务读取一个或多个 ImageBuffer 输入，并输出一个 ImageBuffer。任务维度由上游输出与算子的输出维度推导逻辑共同决定。

DAGScheduler 会优先将独立任务分散到不同流。跨流依赖通过 CUDA event 建立生产者-消费者同步关系。

若某任务失败，其依赖后继会被标记为 FAILED。与该失败路径无依赖关系的分支不会被强制终止。

Mini-ImagePipe 使用双池化模型：

相较于 "手写 CUDA 调用链"，Mini-ImagePipe 的核心价值不止在速度，更在于 结构化控制能力：