新闻动态
News
首页 > 新闻动态
返回

厦门大学 PyTorch-Transformers 测试报告


2021-5-28


    PyTorch-Transformers 是先进的自然语言处理预训练模型库。2021 年初,厦门大学客户在 A40 和 A100 平台测试了软件的 GPU 加速效果。


测试环境配置:


2-210Q5195622V1.png


测试数据:


    分别对 A40 和 A100 进行了测试,运行时间如下:


2-210Q5195A1L4.png


测试过程:


    部署软件环境进行测试。最初两次迭代之间有很长的 GPU 使用率为 0 的空白期,如下图红框所示:


 2-210Q5195I4131.png


    空白期的形成是由于两次迭代之间,需要将训练数据由内存调入 GPU 显存,默认情况是单线程处理,导致时间花费较多。在脚本内添加选项--dataloader_num_workers="16",可以多进程调度数据,大大缩短训练时间。


测试结论及分析:


    A40 的训练时间比 A100 的训练时间少,这和初始预期不同,分析可能的原因在于项目采用的是混合精度训练,即 FP16+FP32。


2-210Q5195Q1132.png


    在 FP16 计算方面,A100 优于 A40,而 A40 的优势体现在 FP32 操作上。


    在整个项目中 FP16 操作占比约三分之一,所以整体 A40 训练时间更短。


    如果调用 TF32 来替代 FP32 操作,或许能使 A100 充分展现其性能。


上一篇:GPU 助力燧坤智能新药研发 提速药物筛选流程数十倍