99久久人妻无码精品系列蜜桃|欧美一区二区三区乱码AⅤ|精品国语对白精品自拍视|在线视频免费观看一区|98av国产欧美日韩亚洲欧洲|人妻丰满熟妇av无码区二区三区|强乱中文字幕av一区乱码|亚洲日本一区二区

您的位置:首頁(yè) > 滾動(dòng) >

百圖生科CEO劉維:生命科學(xué)AI大模型,開(kāi)啟創(chuàng)新藥物研發(fā)新范式

2023-08-24 22:09:20 來(lái)源:潮頭

作者|閆妍


【資料圖】

出品|網(wǎng)易科技《潮頭》欄目

生命科學(xué)領(lǐng)域正在迎來(lái)新故事。

就像ChatGPT打開(kāi)了人機(jī)對(duì)話的窗口,一批生命科學(xué)AI大模型也在開(kāi)發(fā)的路上,甚至已經(jīng)有人打響了落地第一槍,或?qū)樾袠I(yè)帶來(lái)革命性的變化。

“我們?cè)谕ㄟ^(guò)大模型盡量地學(xué)習(xí)生物進(jìn)化規(guī)律,有點(diǎn)像在數(shù)字世界不斷重啟地球,希望從中找到對(duì)人類有益的新東西,填補(bǔ)復(fù)雜行業(yè)問(wèn)題與前沿算法之間的關(guān)鍵空白地帶,為科研、環(huán)保、材料、消費(fèi)等領(lǐng)域提供解決方案?!卑賵D生科CEO劉維告訴網(wǎng)易科技《潮頭》欄目。

簡(jiǎn)單來(lái)說(shuō),他們?cè)诖蛟煲粋€(gè)能生成蛋白質(zhì)的ChatGPT,探索人類進(jìn)化過(guò)程中蛋白質(zhì)組合的各種可能性,根據(jù)用戶給定的參數(shù)和功能,以生成的方式,設(shè)計(jì)創(chuàng)新的蛋白質(zhì)(抗體、酶等)、細(xì)胞等設(shè)計(jì)方案,來(lái)回答各種生命科學(xué)問(wèn)題。

2020年,百度集團(tuán)創(chuàng)始人李彥宏和時(shí)任百度風(fēng)投CEO的劉維,決定聯(lián)合創(chuàng)辦百圖生科。2021年,百圖生科構(gòu)建了世界最大規(guī)模的免疫圖譜,并做出了千億參數(shù)規(guī)模的大模型“xTrimo”,這是全球首個(gè)、也是目前最大的生命科學(xué)領(lǐng)域的“超大規(guī)模多模態(tài)模型體系”。后來(lái),基于該模型研發(fā)了用戶交互窗口AIGP平臺(tái)(AI Generated Protein,AI生成蛋白質(zhì)平臺(tái)),AIGP在2022年開(kāi)始內(nèi)部使用,2023年宣布擴(kuò)大內(nèi)測(cè)范圍,目前合作伙伴已超20家,今年有望擴(kuò)展到50家左右。

在劉維看來(lái),尤其在承擔(dān)著人類生命健康使命的新藥研發(fā)行業(yè)中,大模型的社會(huì)價(jià)值和行業(yè)價(jià)值極高。

核心點(diǎn)在于,它能夠幫助研究者節(jié)約大量的實(shí)驗(yàn)時(shí)間和實(shí)驗(yàn)費(fèi)用?!叭蚍秶磕暌ㄙM(fèi)幾千億美金在臨床試驗(yàn)上,僅一輪動(dòng)物實(shí)驗(yàn)就要花費(fèi)幾月時(shí)間、幾百萬(wàn)成本,有的企業(yè)花費(fèi)幾年時(shí)間圍繞著一個(gè)靶點(diǎn)來(lái)研發(fā)一款藥物,但到最后關(guān)頭前功盡棄,這種行業(yè)格局使得大家都在苦行僧之路上長(zhǎng)期前行?!眲⒕S講。

在他看來(lái),大部分的藥物研發(fā)往往只夠針對(duì)單個(gè)靶點(diǎn),這是整個(gè)行業(yè)低效的源頭問(wèn)題?!坝泻芏嗍∈且婚_(kāi)始就埋下的,前期參數(shù)就存在了問(wèn)題,未來(lái)在foundation model驅(qū)動(dòng)下,很快就能根據(jù)已有參數(shù)涌現(xiàn)出答案,這對(duì)于從0到1的創(chuàng)新發(fā)現(xiàn),可能提高的是很多年的效率?!?/p>

劉維告訴《潮頭》欄目,AI技術(shù)應(yīng)用在生命科學(xué)領(lǐng)域的最終價(jià)值,是幫助解碼、治愈所有的疾病,解決當(dāng)下難以應(yīng)對(duì)的全球公共健康問(wèn)題。

奇點(diǎn)將至

生物計(jì)算加速“進(jìn)化樹(shù)”

《潮頭》:兩年前,百圖生科開(kāi)始布局大模型“xTrimo",當(dāng)時(shí)決定要做這件事的契機(jī)是什么?

劉維:其實(shí)BioMap這個(gè)公司名字也跟大模型很有關(guān)系,當(dāng)然它沒(méi)有叫“Bio大模型”,而是叫了“Map”這個(gè)名字,實(shí)際上公司創(chuàng)立之初就希望,圍繞著難成藥靶點(diǎn)全新蛋白等實(shí)驗(yàn)篩選手段篩不出來(lái)的領(lǐng)域,利用大模型對(duì)于弱關(guān)聯(lián)語(yǔ)料的處理能力,從海量的生物數(shù)據(jù)里面提取對(duì)科研人員有意義的規(guī)律,為行業(yè)提供更好的生物地圖(BioMap)。

2020年底,我和Robin為什么決定要做這家公司?其一個(gè)核心判斷就是看到OpenAI開(kāi)發(fā)了GPT-3,人類的第一個(gè)千億參數(shù)大模型出現(xiàn),這種技術(shù)的躍升,讓我們看到了做垂類大模型更大的潛力,這也是我們決定要成立這家公司的原因之一。公司最早的時(shí)候有張計(jì)劃圖,左邊寫(xiě)的就是預(yù)訓(xùn)練大模型,右邊寫(xiě)的是若干個(gè)任務(wù)模型。

《潮頭》:大模型可以切入的方向有很多,你們?yōu)槭裁催x擇了生命科學(xué)這個(gè)場(chǎng)景?

劉維:我認(rèn)為大模型的核心優(yōu)勢(shì),可以從它的入口和出口去判斷,它的入口需要比較大量的弱關(guān)聯(lián)數(shù)據(jù),出口需要找到適合大模型去做缺乏任務(wù)數(shù)據(jù)的場(chǎng)景。滿足入口、出口這兩個(gè)約束條件之后,大模型就在這個(gè)應(yīng)用場(chǎng)景內(nèi)變得更有用武之地。否則,如果沒(méi)有大量前端的弱關(guān)聯(lián)數(shù)據(jù),大模型無(wú)從訓(xùn)起?;蛘呦喾?,如果任務(wù)數(shù)據(jù)已經(jīng)比較豐富了,實(shí)際上也不需要大模型,用傳統(tǒng)的AI模型也能做。

我們?nèi)プ鲞@家公司,恰好配合了這么一個(gè)時(shí)間點(diǎn),海量的生物數(shù)據(jù)開(kāi)始出現(xiàn),但是它還沒(méi)有被整理好,不夠高質(zhì)量,也不夠任務(wù)相關(guān),這個(gè)時(shí)候如果誰(shuí)能夠先用一種新技術(shù)把它們利用起來(lái),誰(shuí)能用一個(gè)技術(shù)平臺(tái)把它們匯聚起來(lái),在海量的數(shù)據(jù)里找出規(guī)律,用來(lái)解決缺乏數(shù)據(jù)的特定問(wèn)題,我們覺(jué)得就能夠批量化地解決很多創(chuàng)新藥物或者生命科學(xué)項(xiàng)目研發(fā)的挑戰(zhàn)。

《潮頭》:當(dāng)時(shí)希望“xTrimo"具備怎樣的能力?目前又實(shí)現(xiàn)了多少?

劉維:大模型的核心就是生成、涌現(xiàn),而且這種涌現(xiàn)是低成本、高泛化能力、高場(chǎng)景適應(yīng)性的。我們當(dāng)時(shí)寫(xiě)下的第一個(gè)任務(wù),是希望解決免疫領(lǐng)域中復(fù)雜規(guī)律的一系列小任務(wù)。但這兩年,我們發(fā)現(xiàn)大模型在泛化的蛋白和細(xì)胞任務(wù)上的表現(xiàn)比想象中更好。從免疫高性能抗體起步,到其他非免疫領(lǐng)域的高性能抗體,再到藥物領(lǐng)域中用到的其他蛋白質(zhì),大模型對(duì)這些問(wèn)題的預(yù)測(cè)、生成是有泛化能力的,已經(jīng)可以通過(guò)技術(shù)去摘取一些“果實(shí)”。

今年,我們還有一個(gè)很大的發(fā)現(xiàn),酶作為一類蛋白質(zhì),大模型對(duì)它們的能力也很突出,所以我們正在研究跟石油有關(guān)的酶,跟環(huán)保有關(guān)的酶等等。背后意義在于,油井里的酶可以促進(jìn)有機(jī)物更好地凝固,環(huán)保場(chǎng)景下酶可以促進(jìn)塑料更快降解,以及工業(yè)催化、釀酒等行業(yè)都需要各種各樣更好的酶,但這些酶在傳統(tǒng)自然界中還沒(méi)有進(jìn)化出來(lái),小改進(jìn)也改不出來(lái),沒(méi)有生成能力就很難做出全新的設(shè)計(jì)。

我們希望通過(guò)大模型設(shè)計(jì)全新的蛋白質(zhì)藥物、全新的酶,有點(diǎn)像是在加速“進(jìn)化樹(shù)”,以前生物學(xué)的發(fā)現(xiàn)大多是靠在自然界去“撈”,現(xiàn)在更像是將潛在的蛋白質(zhì)構(gòu)成視作一個(gè)巨大的模型,可以在數(shù)萬(wàn)億倍的增量空間去探索人類進(jìn)化過(guò)程中,蛋白質(zhì)組合的各種可能性,釋放更多未知領(lǐng)域的潛力。

《潮頭》:AI大模型需要計(jì)算資源,數(shù)據(jù)集深度學(xué)習(xí)框架,語(yǔ)料庫(kù)等多項(xiàng)能力的支撐。

但很多醫(yī)藥企業(yè)對(duì)于數(shù)據(jù)保護(hù)格外慎重,生物數(shù)據(jù)的缺乏,是否對(duì)大模型的訓(xùn)練帶來(lái)挑戰(zhàn)?

劉維:如果我們只看強(qiáng)關(guān)聯(lián)數(shù)據(jù),它一定是稀缺的。不僅是我們這樣的公司缺,大的藥企也缺。我們今天跟很多大藥企去合作,會(huì)發(fā)現(xiàn)其實(shí)數(shù)據(jù)沒(méi)有想象中的那么多。

背后原因很簡(jiǎn)單,一是生物實(shí)驗(yàn)的方法,本身能產(chǎn)生的數(shù)據(jù)就很有限;二是以往的藥物發(fā)現(xiàn)大多以真實(shí)物理世界篩選為主,以動(dòng)物實(shí)驗(yàn)作為驗(yàn)證主體,實(shí)驗(yàn)中常見(jiàn)的是只去記錄好的、良性結(jié)果的數(shù)據(jù),而被篩出去的不成功產(chǎn)物,這些數(shù)據(jù)則沒(méi)有被記錄,不成功不一定意義等于0,可能是0.2、0.3、0.4,但很多高質(zhì)量的數(shù)據(jù)其實(shí)被丟掉了;三是藥企可能產(chǎn)生過(guò)很多數(shù)據(jù),但是他們又積累了多少呢?因?yàn)檫@些數(shù)據(jù)的存儲(chǔ)、整理都是很高的成本。所以,藥企并沒(méi)有想象中的那么多數(shù)據(jù),就算有一些,也遠(yuǎn)遠(yuǎn)不足以做大模型。

《潮頭》:那么在數(shù)據(jù)缺口問(wèn)題上,你的解決辦法是什么?

劉維:我們最后在北京、蘇州兩地,各建了上萬(wàn)平的高通量實(shí)驗(yàn)室,原因其實(shí)就是很多行業(yè)的數(shù)據(jù)采集技術(shù)和標(biāo)準(zhǔn),并不符合AI需求。我們自己建立實(shí)驗(yàn)室,目標(biāo)就是要去重新塑造這樣的流程和技術(shù)標(biāo)準(zhǔn),并且把它反推給行業(yè)。

但是我們更核心的解決方案是更AI化的,我們希望聚合公開(kāi)數(shù)據(jù)實(shí)現(xiàn)海量的語(yǔ)料為大模型所用。在數(shù)據(jù)話題上,其實(shí)生命科學(xué)比起其他行業(yè)有個(gè)優(yōu)勢(shì),出于行業(yè)監(jiān)管的原因,這個(gè)領(lǐng)域有極為大量的科學(xué)研究數(shù)據(jù)必須公布,比如臨床數(shù)據(jù)、藥物實(shí)驗(yàn)結(jié)果等等,科學(xué)論文更是非常活躍。我們現(xiàn)在已經(jīng)構(gòu)建了世界最大的一個(gè)生命科學(xué)數(shù)據(jù)集,萬(wàn)億規(guī)模的數(shù)據(jù)圖譜,這也是兩年多來(lái)做出的一個(gè)比較大的投入,里面納入了來(lái)自2億篇論文,超1億篇專利,幾百萬(wàn)篇類似于FDA報(bào)告的專業(yè)文檔,以及幾千個(gè)不同的數(shù)據(jù)庫(kù)的數(shù)據(jù),這種體量的行業(yè)數(shù)據(jù)是任何一家企業(yè)遠(yuǎn)遠(yuǎn)無(wú)法積累到的,而這些數(shù)據(jù)的獲取,處理,數(shù)據(jù)工程又構(gòu)成了非常深的護(hù)城河。

《潮頭》:在你看來(lái),生命科學(xué)AI大模型將如何幫助行業(yè)降本增效?

劉維:一個(gè)在于降本,以往的藥物發(fā)現(xiàn)大多以動(dòng)物實(shí)驗(yàn)作為驗(yàn)證主體,一輪動(dòng)物實(shí)驗(yàn)要花費(fèi)幾個(gè)月的時(shí)間、幾百萬(wàn)的成本,現(xiàn)在可以直接通過(guò)大模型生成預(yù)測(cè),前面的實(shí)驗(yàn)環(huán)節(jié)會(huì)大大節(jié)約(成本)。

還有一個(gè)在于提效,全球范圍每年可能要花費(fèi)幾千億美金在臨床試驗(yàn)里,但其實(shí)很多都是在浪費(fèi),因?yàn)楹竺娴氖「怕屎芨?。比如,有很多失敗是一開(kāi)始就埋下的,前期參數(shù)就存在問(wèn)題,越拖到后面造成的成本損耗越大。未來(lái),在foundation model驅(qū)動(dòng)下,后面明知會(huì)失敗的事情,前面這些環(huán)節(jié)就不要做了。這對(duì)于從0到1的創(chuàng)新發(fā)現(xiàn),可能提高的是很多年的效率。

聚焦人才

組建一支真正與國(guó)際接軌的團(tuán)隊(duì)

《潮頭》:中國(guó)的通用大模型整體發(fā)展落后于美國(guó),但令人意外的是,百圖生科做出了生命科學(xué)領(lǐng)域最大的模型,而且是最領(lǐng)先的,這是為什么?

劉維:我們做得夠早,從2020年開(kāi)始做這個(gè)事,在整個(gè)行業(yè)里,無(wú)論是做生命科學(xué)的foundation model,還是作為一家獨(dú)立公司做foundation model,2020年都是很早的。其次,我們還很快,這個(gè)“快”體現(xiàn)在萬(wàn)億規(guī)模的數(shù)據(jù)圖譜構(gòu)建,我們利用了中國(guó)非常好的工程優(yōu)勢(shì),我覺(jué)得在中國(guó)可能比美國(guó)要快10倍。

《潮頭》:怎么講?為什么能比美國(guó)快10倍?

劉維:在數(shù)據(jù)圖譜的構(gòu)建過(guò)程中,其實(shí)有大量的數(shù)據(jù)工程工作,大量的工具開(kāi)發(fā)工作,背后都回歸到了人的努力程度,跟人員的成本和工程的組織效率息息相關(guān)。例如,數(shù)據(jù)標(biāo)記工作,我們高峰期大概有上百人的專業(yè)團(tuán)隊(duì)專門(mén)在做,還有幾百人的兼職。

同樣是疫情造成進(jìn)出辦公室不便,我們?cè)趪?guó)內(nèi)很多同事仍然堅(jiān)持在實(shí)驗(yàn)室里,而美國(guó)有的公司長(zhǎng)期work from home直到現(xiàn)在還沒(méi)有恢復(fù)。當(dāng)然,美國(guó)有它的創(chuàng)意、創(chuàng)新優(yōu)勢(shì),但涉及到大的系統(tǒng)工程的執(zhí)行問(wèn)題,這就是我們見(jiàn)長(zhǎng)的方向了。這也是我們一直希望能夠發(fā)揮全球化的優(yōu)勢(shì),即便前兩年疫情的原因,地緣政治的原因,都帶來(lái)很多的挑戰(zhàn)和代價(jià),但我們還是堅(jiān)持這么做,原因很簡(jiǎn)單,我還是相信在前沿科技領(lǐng)域大家需要全球化合作,也只有合作才能把市場(chǎng)上各種有效要素組織起來(lái),去做一個(gè)前沿突破型的公司。

《潮頭》:在生命科學(xué)這個(gè)領(lǐng)域里,國(guó)內(nèi)不管是科研能力還是論文數(shù)量,距離世界頂級(jí)水平都還存在差距。這種背景下,要如何保持技術(shù)先進(jìn)性和高水平的研究能力,做到與國(guó)際頂級(jí)水平接軌?

劉維:我認(rèn)為這點(diǎn)恰恰是我們比較有優(yōu)勢(shì)的。在公司創(chuàng)立之初,我們就希望這是一家真正國(guó)際化的企業(yè),一開(kāi)始就在硅谷和中國(guó)兩地設(shè)立了團(tuán)隊(duì)進(jìn)行運(yùn)營(yíng)。從人的角度來(lái)講,我們創(chuàng)始團(tuán)隊(duì)一直真正在全球領(lǐng)域去做前沿投資,無(wú)論是在AI領(lǐng)域,還是在生物領(lǐng)域,我們?cè)诿绹?guó)投了非常多主流的AI和生命科學(xué)項(xiàng)目,使得我們有人脈,能夠組建這樣一支真正與國(guó)際接軌的團(tuán)隊(duì)。

正因此,我們當(dāng)年開(kāi)始做這家公司的時(shí)候,就找來(lái)了一些足夠全球影響力的團(tuán)隊(duì)成員,和更多的像Robert·Gentleman這樣的核心科學(xué)顧問(wèn),他是R語(yǔ)言的發(fā)明人,現(xiàn)任哈佛醫(yī)學(xué)院計(jì)算生物醫(yī)學(xué)中心創(chuàng)始主任,這種global背景人才的團(tuán)隊(duì)組合,使得我們能夠設(shè)計(jì)面向未來(lái)的架構(gòu),構(gòu)建起這樣大規(guī)模的數(shù)據(jù)。

《潮頭》:2020年,你已經(jīng)在硅谷看到了OpenAI這樣公司的出現(xiàn),但不管是大模型還是ChatGPT,這些信息傳導(dǎo)到中國(guó)好像慢了很大一拍,今年初不少投資人面臨大模型熱還有些措手不及。為什么會(huì)出現(xiàn)這種狀況?

劉維:我覺(jué)得這幾年慢是很明顯的,以前非常頻繁的交流和人才回流,這些年基本停下來(lái)了。以前我們做投資的時(shí)候,會(huì)發(fā)現(xiàn)很多華人在美國(guó)做到一定位置之后,他可能想要?jiǎng)?chuàng)業(yè),不少人愿意回到中國(guó)看機(jī)會(huì),自然就帶回了很多比較新的東西。

但這幾年,各種變化糾纏在一起,這種力量在減弱?,F(xiàn)在美國(guó)大模型也很熱,但不是今年才開(kāi)始熱,而是過(guò)去幾年一直有熱度。今天,美國(guó)更關(guān)注的是做專業(yè)垂類的foundation model,不是在垂類里用GPT寫(xiě)小作文,而是垂類里頭的foundation model或者next generation foundation model。但在中國(guó),很多人還是在“卷”GPT的copy cat。

《潮頭》:現(xiàn)在有一股大模型扎堆創(chuàng)業(yè)的熱潮,不斷有新的挑戰(zhàn)者入局,每個(gè)大廠似乎都要去做一個(gè)自己的大模型,你怎樣看待這波創(chuàng)業(yè)潮?什么樣的團(tuán)隊(duì)或產(chǎn)品才能走到最后?

劉維:首先說(shuō)做foundation model這個(gè)角度,第一個(gè)活下去的要素是,你真的在做foundation model。我個(gè)人覺(jué)得,今天市場(chǎng)上還很多是在蹭熱點(diǎn),有人說(shuō)我在做大模型,但人家沒(méi)說(shuō)是做千億參數(shù)的大模型,沒(méi)說(shuō)是自己架構(gòu)的基礎(chǔ)模型,只是一個(gè)“大”的標(biāo)簽,可能還是原來(lái)的AI。說(shuō)實(shí)話,去做大模型,搞大模型訓(xùn)練,是很高的門(mén)檻。一個(gè)真正千億參數(shù)的大模型,至少得有幾千塊卡的資源和算法工程能力,要有萬(wàn)億token的獨(dú)特語(yǔ)料,不然就不能訓(xùn)練大模型。把各種泡沫都撇掉之后,誰(shuí)是真實(shí)去做這個(gè)東西的,大家心里有數(shù)。

第二個(gè)問(wèn)題是,在戰(zhàn)略上有沒(méi)有合理路徑,能付得起大模型的成本?;ヂ?lián)網(wǎng)大廠去做大模型,在算力、數(shù)據(jù)、應(yīng)用場(chǎng)景上,有先天的優(yōu)勢(shì)。初創(chuàng)公司做這件事,如果你做的這個(gè)領(lǐng)域并不稀缺,或者說(shuō)已經(jīng)有很多競(jìng)爭(zhēng)了,那么你還能不能得到合作的機(jī)會(huì)?

第三個(gè),能不能構(gòu)建一個(gè)多元化的人才戰(zhàn)略。我覺(jué)得大模型真正的競(jìng)爭(zhēng)門(mén)檻在于多元化人才,這是個(gè)很系統(tǒng)的工程,是跨模態(tài)的。比如我們有的人要懂蛋白,有的人要懂細(xì)胞,有的人要懂算法工程,有人要懂如何拿大模型的輸出去真的做藥而不只是發(fā)個(gè)論文,在這么復(fù)雜的機(jī)理里面,每一層都要找到合適的人才,能不能吸引這么一個(gè)多元化的團(tuán)隊(duì)愿意一起干,這個(gè)也很重要。

商業(yè)化提速

專注“Model as a Service”

《潮頭》:目前公司的主要合作伙伴有哪些?

劉維:合作伙伴基本上兩類,但是大家目的都是一樣的,都是想做成創(chuàng)新的項(xiàng)目。一類是大型的藥企、大型的石油公司、大型的工業(yè)公司,這部分可能短期的付費(fèi)能力更強(qiáng),他們可能上來(lái)就愿意出錢(qián),能付成百上千萬(wàn)美金的費(fèi)用,來(lái)調(diào)用我們的任務(wù)模型或者大模型。

另一類是研究中心、中小型公司以及高校著名的實(shí)驗(yàn)室,這部分可能不涉及短期給我們付費(fèi),但大家可以共同投入,分享未來(lái)收益,這些伙伴的魅力在于,他們有非常多的前沿研究和數(shù)據(jù)。這都是我們需要的,今天任何一個(gè)合作伙伴的數(shù)據(jù)都不夠多,但數(shù)據(jù)飛輪把越來(lái)越多伙伴聯(lián)合起來(lái),可以創(chuàng)造顯著的數(shù)據(jù)價(jià)值。

《潮頭》:在商業(yè)模式上,你們的定位是和大模型公司一樣,還是有一天也會(huì)去做垂直應(yīng)用?

劉維:我們和其他大模型公司的邏輯是一樣的,我們覺(jué)得是“Model as a Service”(MaaS,模型即服務(wù))。我們當(dāng)然自己也有能力把一些項(xiàng)目往后推,甚至直接去做臨床等等,但是總要做一個(gè)選擇,是把所有的精力放在去做一個(gè)具體的創(chuàng)新藥上,還是這個(gè)平臺(tái)圍繞多個(gè)項(xiàng)目都能做出貢獻(xiàn),我們選擇了后者。

原因也很簡(jiǎn)單,每一個(gè)創(chuàng)新項(xiàng)目往后走,行業(yè)縱深其實(shí)都很深,而在這些行業(yè)縱深里,一定都有些公司已經(jīng)很有優(yōu)勢(shì)了,你為什么要重復(fù)他們的工作呢?從立場(chǎng)來(lái)看,又當(dāng)裁判又當(dāng)運(yùn)動(dòng)員,反而會(huì)錯(cuò)失更多優(yōu)質(zhì)合作。我們會(huì)利用大模型和任務(wù)模型設(shè)計(jì)很多具體的分子,但是會(huì)依靠不同伙伴來(lái)推動(dòng)到后期階段。

《潮頭》:大模型的調(diào)用方法有哪些?

劉維:一個(gè)是合作伙伴來(lái)調(diào)用已有的任務(wù)模型做項(xiàng)目,這個(gè)過(guò)程中,合作伙伴或者給數(shù)據(jù)、或者給錢(qián)、或者給到項(xiàng)目權(quán)益。大家共同投入,也在幫我們迭代模型。

還有一類客戶,他們有更創(chuàng)新的題目,已有任務(wù)模型無(wú)法滿足,他們可以直接調(diào)用大模型,基于xTrimo開(kāi)發(fā)和調(diào)優(yōu)新的任務(wù)模型,這部分現(xiàn)在也是快速增長(zhǎng)的需求,我們今年有幾個(gè)大型交易,都跟這個(gè)方向有關(guān)。

《潮頭》:過(guò)去很多云廠商想要撬動(dòng)央國(guó)企,但發(fā)現(xiàn)想要讓這些企業(yè)數(shù)據(jù)上云并不是件容易的事情,大家都很擔(dān)心數(shù)據(jù)的安全性。國(guó)內(nèi)這些大型藥企會(huì)愿意把數(shù)據(jù)喂到你的大模型里嗎?

劉維:這是挺好的話題,我覺(jué)得這里面核心有幾層,一是生命科學(xué)行業(yè)整體上的開(kāi)放程度要高得多,尤其在discovery(創(chuàng)新)階段,因?yàn)檫@個(gè)階段其實(shí)絕大部分?jǐn)?shù)據(jù)來(lái)自于自然觀測(cè),他不是把成功的、值錢(qián)的數(shù)據(jù)給到我,而是把他們歷史上不夠成功的數(shù)據(jù)給我,但這些數(shù)據(jù)也很有價(jià)值,這些不夠成功的數(shù)據(jù)留在他們自己手里,其實(shí)也做不出來(lái)什么,就沒(méi)有價(jià)值了,所以整體上大家愿意做研發(fā)合作。你也要有實(shí)力去證明,能夠利用他們這些有價(jià)值但不夠完美的數(shù)據(jù),真的把東西做出來(lái)。

其次,要感謝我們的技術(shù)實(shí)力,從技術(shù)角度講,很多企業(yè)基于我們的大模型做的任務(wù)模型,不一定要把數(shù)據(jù)給到我,實(shí)際可以把數(shù)據(jù)放在他們自己的隔離域里,我們也提供了這樣一種方案,方便他們調(diào)動(dòng)大模型。因?yàn)檫@樣的技術(shù)可行性,也使得他們并不是一定要把數(shù)據(jù)的所有權(quán)轉(zhuǎn)移給我,但是我的模型也能得到這些數(shù)據(jù)的幫助。

《潮頭》:比如電商平臺(tái)判斷產(chǎn)品成不成功,可以看GMV、營(yíng)收、用戶數(shù)據(jù)等都很直觀。但大模型產(chǎn)業(yè)目前還處在非常早期的階段,你對(duì)所推出的產(chǎn)品和服務(wù),成與不成的判斷標(biāo)準(zhǔn)是什么?

劉維:我們現(xiàn)在整體架構(gòu)大概分為四層,第一層基座是AI大模型“xTrimo”;第二層是任務(wù)模型,我們基于大模型研發(fā)的多種任務(wù)模型構(gòu)成的AIGP平臺(tái);第三層是利用任務(wù)模型針對(duì)行業(yè)/領(lǐng)域不同的項(xiàng)目,調(diào)用模型進(jìn)行的分子設(shè)計(jì)項(xiàng)目,也就是真正的商業(yè)化;此外在大模型下其實(shí)還有一層是數(shù)據(jù)圖譜,這四層是一個(gè)嵌套的關(guān)系,設(shè)計(jì)項(xiàng)目對(duì)任務(wù)模型,任務(wù)模型對(duì)大模型,大模型對(duì)數(shù)據(jù),一層層的反饋和牽引提升。

這其實(shí)是一套工程體系,每一層環(huán)節(jié)我們都會(huì)定義不同的評(píng)測(cè)指標(biāo),企業(yè)的判斷標(biāo)準(zhǔn)也隨著發(fā)展階段在變。兩年前我們會(huì)在意數(shù)據(jù)圖譜的規(guī)模指標(biāo),一年前是大模型的參數(shù)和性能,半年前任務(wù)模型的多個(gè)指標(biāo)是沖刺目標(biāo),現(xiàn)在對(duì)于項(xiàng)目的完成度和商業(yè)化的總用戶數(shù)、總收入和項(xiàng)目?jī)r(jià)值開(kāi)始爬坡,一步步向前迭代。

《潮頭》:兩年前采訪時(shí),你講到商業(yè)化并不是百圖生科現(xiàn)階段最核心的任務(wù),主要還是專注于技術(shù)突破?,F(xiàn)在再聊這個(gè)話題,今年你給公司制定商業(yè)化的目標(biāo)了嗎?

劉維:兩年前我說(shuō)先把數(shù)據(jù)做了,一年半前我們?cè)诮鉀Q大模型的技術(shù)突破,半年前我們?cè)诖_保一些項(xiàng)目能夠基于任務(wù)模型有一些進(jìn)展,這個(gè)塔逐漸地往上,一層一層嵌套走到今天,今年我們開(kāi)始爬這個(gè)塔尖,也就是商業(yè)化。

今年,我們提出了AIGP概念,也是吹響了商業(yè)化元年的號(hào)角。在此之前,我們其實(shí)有少量幾家試驗(yàn)型的客戶,現(xiàn)在則開(kāi)始正式進(jìn)入到客戶拓展的周期。今年,我們實(shí)際上給自己有一個(gè)商業(yè)化的目標(biāo),但并不是絕對(duì)以收入為核心,它永遠(yuǎn)是一個(gè)平衡的事情,收入,項(xiàng)目?jī)r(jià)值,用戶數(shù)量,領(lǐng)域分布,這個(gè)綜合指標(biāo)背后映射著當(dāng)前的市場(chǎng)認(rèn)可和未來(lái)的想象空間,對(duì)于一家大模型公司而言都必不可少。

關(guān)鍵詞:

[責(zé)任編輯:xwzkw]

相關(guān)閱讀

title="99久久人妻无码精品系列蜜桃|欧美一区二区三区乱码AⅤ|精品国语对白精品自拍视|在线视频免费观看一区|98av国产欧美日韩亚洲欧洲|人妻丰满熟妇av无码区二区三区|强乱中文字幕av一区乱码|亚洲日本一区二区|国产suv一区二区|欧美精品电影一区二区三区|免费无码毛片一区二区app|粉嫩的18在线观看极品精品">