導(dǎo)航菜單

CPU可跑大模型國內(nèi)首個(gè)非Attention大模型發(fā)布 詳情如何

導(dǎo)讀 巖山科技旗下的創(chuàng)企巖芯數(shù)智,于1月24日推出國內(nèi)第1個(gè)非Attention大模型,該大模型的名稱是Yan,在整個(gè)行業(yè)內(nèi)也是非常少有的非Transformer

巖山科技旗下的創(chuàng)企巖芯數(shù)智,于1月24日推出國內(nèi)第1個(gè)非Attention大模型,該大模型的名稱是Yan,在整個(gè)行業(yè)內(nèi)也是非常少有的非Transformer架構(gòu)大模型。

巖芯數(shù)智的CEO劉凡平對(duì)這款新的大模型進(jìn)行了介紹,表示Yan屬于通用的語言大模型,與同等參數(shù)Transformer相比,擁有7倍的訓(xùn)練效率,記憶能力達(dá)到三倍,推理吞吐能夠達(dá)到5倍。同時(shí)還可以進(jìn)行CPU無損運(yùn)行,對(duì)于私有化應(yīng)用100%支持,可以進(jìn)行低幻覺的表達(dá)。

Yan到目前為止,還沒有確定真正的與誰進(jìn)行對(duì)標(biāo),大家當(dāng)前所看到的一些與Transformer進(jìn)行對(duì)比的數(shù)據(jù),實(shí)際上是與Llama2的數(shù)據(jù)所進(jìn)行的對(duì)比,空中能夠看到一些在性能方面的差異。該團(tuán)隊(duì)所對(duì)標(biāo)的實(shí)際上是底層技術(shù)架構(gòu),并不是與某一個(gè)產(chǎn)品進(jìn)行對(duì)標(biāo)。

Yan在推理效率、幻覺表現(xiàn)、記憶能力以及訓(xùn)練效率方面的優(yōu)勢都比較強(qiáng),包括在CPU上運(yùn)行也有比較強(qiáng)的優(yōu)勢。其劣勢很可能是在上百k超長文本上會(huì)存在著語義的缺陷。

免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

猜你喜歡:

最新文章: