A summary to the Student Cluster Competition at ISC’21, virtually at Frankfurt, Germany.

总结

总结鸽到了8月份才开始写——期末各种DLL实在是太烦了。ISC’21还是线上举办,因为持续了大概一个月,整个比赛的节奏和风格都和现场有很大的变化。一般会议现场的比赛只持续两天,主要的关注点是集群硬件的搭建和应用的部署——基本上应用跑出来、做一点简单的调优就结束了。线上拉长了战线,很多应用需要分别在两个集群上进行调优,任务量和可尝试的内容都应该是大了不少。

这次比赛的两个集群:

总的来说Niagara使用体验好很多:虽然集群使用率很高,但是排队挺快;另外集群环境的依赖管理得比较好。Aspire-1的dgx集群因为没有module,部署应用应该麻烦一些。另外一开始dgx上有些应用没有跑出期望的性能,日常问题:没有把cuda-aware MPI跑出来。后来是找到了别的二进制包才达到了不错的成绩。

合作方面,线上比赛的队员交流其实偏少。线下比赛的所有队员共用一个小集群,需要队伍紧密沟通才能充分利用有限的计算资源。线上没有资源焦虑,每个同学负责一个赛题,任务也是各自提交运行,往往只在遇到瓶颈的时候才会和其他队员交流。由于战线很长,比赛期间定期组织了组会来同步比赛的进度,基本确保了每个赛题的进度都是合理的。不过,这次比赛中的Code Challenge暴露了我们在任务分配和合作上的一些问题。本来这个赛题的前期是分配给一个同学完成,内容是自己写一个MPI测试程序(引子),还有部署提供的MPI Profiler。可能是赛题前期启动的压力偏大,结果硬是两个星期没有完成,我们也没有及时介入,导致这道题后期的进度比较被动、在bonus上也基本没有任何产出。这道题最后只是堪堪完成。

然后就是面试,简直是血崩。这次总分“非常接近”季军的原因主要就是面试太拉跨,只得到第九名——在赛题的表现上我们应该比季军更胜一筹。面试最大的问题就是没有给到充分的时间准备,草草完成PPT之后每个队员也没有口语展示一遍。还有就是环境上没有准备,六个人挤在我的电脑面前展示的观感也很不好,应该找超算中心开组会的小会议室进行面试。这些问题在下一届队伍中一定要重视。

总的来说还是比较遗憾的。不过客观上也不能要求更多,就我所知冠军清华和季军暨大的队伍主要是大四毕业的同学,而我们基本是大三的同学在学期中后期参赛,导致我们在比赛的各个环节上投入的时间、参赛经验都难以和他们相比。因此最后的成绩其实算是不错。并且ISC的强度其实并不大,我们认为作为新一届队员合作和锻炼的机会非常好,老人家们就不继续来卷了。