99久久人妻无码精品系列蜜桃|欧美一区二区三区乱码AⅤ|精品国语对白精品自拍视|在线视频免费观看一区|98av国产欧美日韩亚洲欧洲|人妻丰满熟妇av无码区二区三区|强乱中文字幕av一区乱码|亚洲日本一区二区

<fieldset id="i4wkw"><tr id="i4wkw"></tr></fieldset>

您的位置：首頁(yè) > 熱點(diǎn) >

動(dòng)態(tài)焦點(diǎn):AI榜單“變天”了！馬斯克發(fā)布Grok 4.1，盲測(cè)排名登頂?shù)谝?/h1>

2025-11-18 09:28:30 來(lái)源：網(wǎng)易科技報(bào)道



就在OpenAI發(fā)布GPT-5.1，大談“情商”之際，埃隆·馬斯克（Elon Musk）也帶著他的xAI，火速加入了這場(chǎng)“AI體驗(yàn)”之戰(zhàn)。
就在剛剛，xAI宣布推出Grok 4.1，這是對(duì)現(xiàn)有Grok 4模型的重大升級(jí)，并已在grok.com、X平臺(tái)以及iOS和Android應(yīng)用向所有用戶全面開(kāi)放。。官方宣稱，新版本在創(chuàng)意表達(dá)、情感互動(dòng)和協(xié)同交流方面表現(xiàn)尤為突出，并且出現(xiàn)幻覺(jué)的概率僅為此前模型的三分之一。

(相關(guān)資料圖)
更引人注目的是，在一個(gè)公開(kāi)的“盲測(cè)”競(jìng)技場(chǎng)（LMArena）上，Grok 4.1的“思考模式”版本已悄然登頂總榜第一，甚至其“非推理”的快速模式，都擊敗了所有對(duì)手的“完整推理”模式。
這場(chǎng)突如其來(lái)的“榜首易主”，無(wú)疑為日趨白熱化的AI競(jìng)賽，又增添了濃重的火藥味。
Grok 4.1升級(jí)了什么？
xAI本次發(fā)布了兩個(gè)Grok 4.1模型：Grok 4.1（非推理模式）和 Grok 4.1 Thinking（思考模式）。這兩個(gè)模型均可免費(fèi)使用，但付費(fèi)用戶面臨的限制更少。
官方表示，新版本能更細(xì)致地理解隱含意圖，與之對(duì)話引人入勝，也更能保持人設(shè)的一致性。
為了優(yōu)化模型的風(fēng)格、人格和有用性，xAI利用前沿的代理型推理模型（agentic reasoning models）作為“獎(jiǎng)勵(lì)模型”，在大規(guī)模環(huán)境中自主評(píng)估并迭代模型的回答。
在11月1日至14日的“靜默上線”期間，xAI在真實(shí)流量上進(jìn)行了盲測(cè)式的成對(duì)比較評(píng)估，結(jié)果顯示，在64.78%的情況下，用戶更偏好Grok 4.1。
“盲測(cè)”登頂，Grok 4.1到底有多強(qiáng)？
Grok 4.1在盲測(cè)的人類偏好評(píng)估中樹(shù)立了新的行業(yè)標(biāo)準(zhǔn)。
LMArena是一個(gè)開(kāi)源工具，用戶可以通過(guò)并排、盲測(cè)的方式，比較不同大語(yǔ)言模型的表現(xiàn)。在這個(gè)競(jìng)爭(zhēng)最激烈的“斗獸場(chǎng)”里，Grok 4.1取得了驚人的成績(jī)：
· Grok 4.1的“思考模式”（代號(hào)：quasarflux）以1483 Elo的成績(jī)位列總榜第一，領(lǐng)先所有非xAI模型31分。
· Grok 4.1的“非推理模式”（代號(hào)：tensor）無(wú)需使用“思考詞元”（thinking tokens），可立即生成回答，并以1465 Elo的成績(jī)排名第二。
· 更夸張的是，Grok 4.1的“非推理”模式表現(xiàn)，超過(guò)了所有其他模型在“完整推理模式”下的公開(kāi)排行榜成績(jī)。
與之相比， Grok 4此前在該榜單上的綜合排名僅為第33位。
“情商”與“文采”，一個(gè)都不能少
除了通用能力，xAI還強(qiáng)調(diào)了新模型在“軟實(shí)力”上的提升。
· 情緒智能（Emotional Intelligence）為評(píng)估模型在個(gè)性與人際互動(dòng)方面的進(jìn)展，xAI對(duì)Grok 4.1進(jìn)行了EQ-Bench3測(cè)試。這是一項(xiàng)由LLM作為裁判的測(cè)試，用于評(píng)估模型在主動(dòng)情緒智能、理解力、洞察力、共情能力和人際技能方面的表現(xiàn)。
· 創(chuàng)意寫(xiě)作能力（Creative Writing）xAI同樣測(cè)量了Grok 4.1在Creative Writing v3基準(zhǔn)測(cè)試中的表現(xiàn)。在該測(cè)試中，模型需要根據(jù)32個(gè)不同的寫(xiě)作提示，在3次迭代中生成回答。
更少的“幻覺(jué)”
快速響應(yīng)模型在配備搜索工具后，雖然能迅速給出答案，但更容易出現(xiàn)事實(shí)性錯(cuò)誤。
在Grok 4.1的后訓(xùn)練階段，xAI重點(diǎn)降低了模型在信息查詢類提示中的事實(shí)性“幻覺(jué)”。
根據(jù)xAI的說(shuō)法，Grok 4.1出現(xiàn)幻覺(jué)的概率是此前模型的三分之一，這使其成為xAI迄今為止的最佳版本之一。
為了驗(yàn)證這一點(diǎn)，xAI不僅在真實(shí)的生產(chǎn)流量中進(jìn)行了評(píng)估，還使用了FActScore——一個(gè)包含500道關(guān)于人物傳記問(wèn)題的公開(kāi)基準(zhǔn)測(cè)試。
挑戰(zhàn)與未來(lái)：真正的對(duì)手還在路上
盡管Grok 4.1的“盲測(cè)”成績(jī)斐然，但AI的王座之爭(zhēng)遠(yuǎn)未結(jié)束。
目前，我們尚不清楚它與GPT-5.1相比的真實(shí)表現(xiàn)。
更重要的是，谷歌（Google）正在準(zhǔn)備發(fā)布Gemini 3.0，這可能會(huì)成為迄今為止最強(qiáng)大的模型。
Grok 4.1的發(fā)布，無(wú)疑是馬斯克在AI競(jìng)賽中投下的一枚重要棋子。但在這場(chǎng)“神仙打架”的牌局中，誰(shuí)能笑到最后，還遠(yuǎn)未可知。（易句）
（本文由AI翻譯，網(wǎng)易編輯負(fù)責(zé)校對(duì)）

關(guān)鍵詞：馬斯克 盲測(cè) grok 推理

[責(zé)任編輯：xwzkw]

相關(guān)閱讀

(2025-11-18)最新資訊:日本火山連續(xù)兩天爆炸性噴發(fā)

(2025-11-18)發(fā)揮供銷合作優(yōu)勢(shì) 太原鹽業(yè)參加“郵入千企”活動(dòng)

(2025-11-18)焦點(diǎn)速看：【ETF動(dòng)向】11月17日國(guó)泰中證新能源汽車ETF基金漲1.91%，份額減少400萬(wàn)份

(2025-11-18)2025年蛋氨酸龍頭股票，名單收好啦！（11月17日）

(2025-11-18)美股鋰礦股集體上漲

(2025-11-17)歐瑩獲女子400米欄銅牌！每日信息

(2025-11-17)即時(shí)焦點(diǎn)：2025年版！煤制油概念股票名單，建議收藏?。?1月17日）

(2025-11-17)A股創(chuàng)新疫苗上市龍頭公司，請(qǐng)查閱?。?025/11/17）

(2025-11-17)阿里巴巴-W獲南向資金連續(xù)3天凈買入|實(shí)時(shí)焦點(diǎn)

(2025-11-17)“詩(shī)行廣西逐夢(mèng)青春”優(yōu)秀作品?丨《會(huì)奔跑的顏料》|通訊

(2025-11-17)善裕集團(tuán)控股(08245.HK)第二名稱更改為"烽翼集團(tuán)有限公司"

(2025-11-17)5連板安泰集團(tuán)：公司目前的市凈率高于所屬行業(yè)板塊的市凈率存在市場(chǎng)情緒過(guò)熱、非理性炒作風(fēng)險(xiǎn)

(2025-11-17)馬斯克稱人類20年內(nèi)有望實(shí)現(xiàn)“數(shù)字永生”

(2025-11-17)從此沒(méi)有到不了的遠(yuǎn)方，縱橫G700全領(lǐng)域陣容即將亮相廣州車展

(2025-11-17)新動(dòng)態(tài)：國(guó)家外匯管理局：10月銀行結(jié)匯15194億元售匯13940億元人民幣

(2025-11-17)博碩科技：公司在動(dòng)力電池、儲(chǔ)能電池等新能源/汽車類領(lǐng)域的主要產(chǎn)品為精密功能件

(2025-11-17)快播：五洲醫(yī)療主力資金持續(xù)凈流入，3日共凈流入1025.71萬(wàn)元

(2025-11-17)請(qǐng)查收！一組海報(bào)速覽北京“十四五”答卷實(shí)時(shí)焦點(diǎn)

(2025-11-17)每日動(dòng)態(tài)!贈(zèng)書(shū)|《外面天氣怎么樣》：八個(gè)當(dāng)代女性的故事

(2025-11-17)肚子里的“心跳”竟是致命危機(jī)？介入專家巧解高齡難題

(2025-11-17)今日快看!2025年11月17日西牧科技（青海）有限責(zé)任公司價(jià)格行情

(2025-11-17)每日關(guān)注!PTA股票龍頭股，共三家上市公司，先收藏起來(lái)！

(2025-11-17)老人胸內(nèi)藏“炸彈” 多學(xué)科微創(chuàng)巧拆除

(2025-11-17)錦旗致謝“真高手” 手法復(fù)位助八旬骨折老人免手術(shù)

(2025-11-17)哈登下半場(chǎng)32分引美媒熱議：一路被命運(yùn)折磨的超級(jí)英雄！太可惜

(2025-11-17)命中2144個(gè)三分，希爾德超越皮爾斯升至NBA歷史三分榜第15

(2025-11-17)關(guān)注：軍工股早盤(pán)漲幅居前中船防務(wù)上漲6.15%中航科工上漲1.53%

(2025-11-17)《天年智慧》互聯(lián)網(wǎng)公益講堂-一個(gè)有溫度的健康課堂

(2025-11-17)濰柴動(dòng)力：目前數(shù)據(jù)中心行業(yè)供電架構(gòu)及機(jī)柜容量變化較大觀熱點(diǎn)

每日推薦

圖片新聞

48小時(shí)頻道點(diǎn)擊排行

視覺(jué)

Copyright@1999-2017 m.ywweb.cn 新聞周刊網(wǎng) All Rights Reserved

聯(lián)系網(wǎng)站：xwzkw@foxmall.net.cn 舉報(bào)郵箱：jubao@123777.net.cn