マイクロソフトがBERT推論の最適化を加えたONNX Runtime最新版を公開
米Microsoftは1月21日、自然言語処理技術のBERT(Bidirectional Encoder Representations from Transformers)を利用した推論の性能を強化する最適化技術をオープンソースで公開したことを発表した。同社の提供する推論エンジン「ONNX Runtime」の一部として公開している。
MicrosoftのAzure AI研究チームは2019年11月に、Bingチームと協業してBERT推論をNVIDIA GPU向けに最適化することで、Bingの遅延制限内で毎秒100万回以上のBERT推論を行うことができたことを報告している。今回、この最適化をさらに強化したものを機械学習モデルの推論エンジン「ONNX Runtime」に導入した。
最新のONNIX Runtimeバージョン1.1.1は、プロジェクトのWebサイトより入手できる。