導(dǎo)航菜單

業(yè)內(nèi):過(guò)去數(shù)月老款A(yù)I芯片降價(jià)大模型培訓(xùn)成本降了多少

導(dǎo)讀 Writer這家初創(chuàng)公司專門為企業(yè)研發(fā)人工智能工具,該家公司的聯(lián)合創(chuàng)始人兼公司的首席技術(shù)官阿爾謝赫表示在最近3個(gè)月到4個(gè)月時(shí)間內(nèi),一些傳統(tǒng)

Writer這家初創(chuàng)公司專門為企業(yè)研發(fā)人工智能工具,該家公司的聯(lián)合創(chuàng)始人兼公司的首席技術(shù)官阿爾謝赫表示在最近3個(gè)月到4個(gè)月時(shí)間內(nèi),一些傳統(tǒng)的人工智能芯片價(jià)格正在逐漸下滑,幫助公司在模型培訓(xùn)方面的成本降低了60%左右。另外英偉達(dá)公司還優(yōu)化了公司旗下軟件產(chǎn)品的性能,讓所有的開(kāi)發(fā)者能夠以這些芯片進(jìn)行更加高效的訓(xùn)練。

研發(fā)大語(yǔ)言模型的成本較高,已經(jīng)成為了整個(gè)科技行業(yè)的共識(shí),其中不僅僅包括模型的研發(fā)費(fèi)用,還包括模型的運(yùn)營(yíng)費(fèi)用。就比如人工智能領(lǐng)域的初創(chuàng)企業(yè)Anthropic,這家公司在云端運(yùn)行語(yǔ)言模型的成本在公司總收入的占比已經(jīng)達(dá)到了50%以上。近段時(shí)間內(nèi)隨著技術(shù)的不斷進(jìn)步,降低了大語(yǔ)言模型的研發(fā)和運(yùn)行成本,目前還并不清楚大語(yǔ)言模型是否因此可以變成擁有更高利潤(rùn)的軟件業(yè)務(wù),不過(guò)現(xiàn)在已經(jīng)幫助多家公司緩解了成本方面的問(wèn)題。

Writer公司現(xiàn)在已經(jīng)開(kāi)始使用英偉達(dá)公司的新款芯片來(lái)訓(xùn)練大語(yǔ)言模型,阿爾謝赫表示這些新芯片的價(jià)格比較高,不過(guò)在訓(xùn)練大語(yǔ)言模型的效率方面要比A100更快。除了芯片以外,開(kāi)發(fā)者還有可能會(huì)通過(guò)技術(shù)改進(jìn)和配置的更改來(lái)降低成本,就比如GPT-4其實(shí)并不是一個(gè)龐大的模型,而是由多個(gè)模型組成的,這種混合系統(tǒng)的效率更高。

現(xiàn)在開(kāi)發(fā)者已經(jīng)發(fā)現(xiàn)了如何去控制硬件的使用方法,谷歌公司的研究人員預(yù)計(jì),openai在訓(xùn)練GPT-3到時(shí)候GPU大約有80%的時(shí)間都在等待數(shù)據(jù)輸入,也就意味著openai并沒(méi)有完全使用GPU的性能。GPU經(jīng)銷商Together的首席科學(xué)家特里·道表示,使用FlashAttention-2的技術(shù),就可以將等待輸入數(shù)據(jù)的時(shí)間縮短到30%左右,許多的開(kāi)發(fā)者現(xiàn)在都已經(jīng)開(kāi)始使用這項(xiàng)技術(shù)。

免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

猜你喜歡:

最新文章: