
微軟宣布對(duì)Bing搜索搜索基礎(chǔ)設(shè)施進(jìn)行更新,包含大型語(yǔ)言模型 (LLM)、小型語(yǔ)言模型 (SLM) 和新的優(yōu)化技術(shù)。
此次更新旨在提高搜索結(jié)果傳遞的性能并降低成本。
該公司在一份公告中表示:
“在 Bing,我們一直在突破搜索技術(shù)的界限。利用大型語(yǔ)言模型 (LLM) 和小型語(yǔ)言模型 (SLM) 標(biāo)志著我們?cè)鰪?qiáng)搜索能力的一個(gè)重要里程碑。雖然轉(zhuǎn)換器模型為我們提供了良好的服務(wù),但搜索查詢的日益復(fù)雜需要更強(qiáng)大的模型?!?/p>
性能提升
在搜索系統(tǒng)中使用 LLM 可能會(huì)產(chǎn)生速度和成本問題。
為了解決這些問題,Bing 訓(xùn)練了 SLM,聲稱其速度比 LLM 快 100 倍。
公告內(nèi)容如下:
“LLM 的服務(wù)成本高昂,而且速度慢。為了提高效率,我們訓(xùn)練了 SLM 模型(吞吐量比 LLM 提高了約 100 倍),可以更準(zhǔn)確地處理和理解搜索查詢?!?/p>
Bing 還使用 NVIDIA TensorRT-LLM 來(lái)提高 SLM 的運(yùn)行效果。
TensorRT-LLM 是一種有助于減少在 NVIDIA GPU 上運(yùn)行大型模型的時(shí)間和成本的工具。
對(duì)“深度搜索”的影響
據(jù)微軟技術(shù)報(bào)告顯示,整合Nvidia的TensorRT-LLM技術(shù)增強(qiáng)了該公司的“深度搜索”功能。
優(yōu)化之前,Bing 的原始 Transformer 模型每批次(20 個(gè)查詢)95 百分位延遲為 4.76 秒,每個(gè)實(shí)例每秒吞吐量為 4.2 個(gè)查詢。
使用 TensorRT-LLM,延遲減少到每批 3.03 秒,吞吐量增加到每實(shí)例每秒 6.6 個(gè)查詢。
這意味著?延遲減少了36% ,運(yùn)營(yíng)成本減少了57%。
該公司表示:
“……我們的產(chǎn)品建立在提供最佳結(jié)果的基礎(chǔ)之上,我們不會(huì)為了速度而犧牲質(zhì)量。這就是 TensorRT-LLM 發(fā)揮作用的地方,它可以減少模型推理時(shí)間,從而減少端到端體驗(yàn)延遲,而不會(huì)犧牲結(jié)果質(zhì)量?!?/p>
Bing 用戶的好處
此更新為 Bing 用戶帶來(lái)了幾個(gè)潛在的好處:
- 通過(guò)優(yōu)化推理和更快的響應(yīng)時(shí)間獲得更快的搜索結(jié)果
- 通過(guò)增強(qiáng) SLM 模型的功能來(lái)提高準(zhǔn)確性,提供更加情境化的結(jié)果
- 成本效益,使 Bing 能夠投資于進(jìn)一步的創(chuàng)新和改進(jìn)
為什么 Bing 轉(zhuǎn)向 LLM/SLM 模型很重要
Bing 轉(zhuǎn)向 LLM/SLM 模型和 TensorRT 優(yōu)化可能會(huì)影響搜索的未來(lái)。
隨著用戶提出越來(lái)越復(fù)雜的問題,搜索引擎需要更好地理解并快速提供相關(guān)結(jié)果。Bing 旨在使用更小的語(yǔ)言模型和高級(jí)優(yōu)化技術(shù)來(lái)實(shí)現(xiàn)這一點(diǎn)。
雖然我們還需要等待并觀察其全部影響,但Bing的舉措為Bing海外推廣的新篇章奠定了基礎(chǔ)。
以上就是上海上弦科技給大家分享的”Bing搜索引擎進(jìn)行語(yǔ)言模型LLM和SLM更新”,有更多相關(guān)內(nèi)容不了解,可以評(píng)論哦!

