CP2K is my optimization target in the second cas-pra competition. This is the presentation note after some study on dbcsr, the sub-program for optimized sparse matrix-matrix multiplications.

Distributed Blocked Compressed Sparse Row

CP2K

先导杯我负责的题目。前后花了一个多星期的样子,目前已经成功部署。小算例上显卡就有三倍优化、大算例目前上卡没有任何作用。大算例没用的问题在dbcsr的GPU调度占比太低,打算先试着解决这个问题。 (Update: 问题部分解决,使用dbcsr的autotuning生成了大算例矩阵乘法的所需参数,提速一倍。比赛之后打算提交到dbcsr主线上)

目标的优化方向:

GPU-Accelerated DBCSR

CP2K的一部分,目前已经是独立的项目了。DBCSR上卡对小算例有明显优化,对大算例没有效果。

ARCH

DBCSR ARCH

Cannon's Algorithm

Multrec

CSR

CPU/GPU Scheduler