中文无码天天av天天爽,中国特级毛,片

亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁 > 資訊 > 文章

2023-11-15 17:04

李開復(fù)大模型公司「零一萬物」口碑爆雷！涉嫌直接抄襲Meta AI模型代碼，來龍去脈一篇理清

11月14日下午，AI圈突然爆出一條消息，直接全網(wǎng)炸鍋嘩然!

抄襲，這事兒可大可小。往小了說，就是道德問題;往大了說，存在欺詐投資人的嫌疑。?

因為事件牽扯到了李開復(fù)頭上，因此各路大神真的坐不住了。EVA今天盡量用最簡單的邏輯線，梳理整個事件的來龍去脈。

「零一萬物」是什么公司？

首先，來了解一下啥是「零一萬物」?

這是李開復(fù)今年3月投資創(chuàng)辦的一家AI大模型研究公司，從百度、阿里、谷歌、滴滴等等大廠挖了不少AI算法工程師。

李開復(fù)何許人也？可是響鐺鐺的“中國科技創(chuàng)投教父”呀~

「零一萬物」發(fā)布大模型勇奪第一

就在上周，「零一萬物」發(fā)布了旗下首款開源大模型“Yi”，包含60億和340億兩個參數(shù)版本。

它很牛，宣稱上下文吞吐Tokens達(dá)到驚人的200K，能一次處理40萬個漢字。換句話說，AI模型能一次性讀完整本《三體：死神永生》。要知道，上周同期發(fā)布的ChatGPT最新版本GPT-4 Turbo宣布Tokens達(dá)到128K，都已經(jīng)是“超神”了。

根據(jù)國外開源模型社區(qū)Hugging Face和C-Eval中文測評榜單發(fā)布的最新數(shù)據(jù)顯示，Yi-34B成為開源界的“雙料冠軍”，甚至超越了Meta的LLaMA 2和中東土豪投資的Falcon等開源競品，成為地表最強！

用“一鳴驚人”形容絲毫不過分。

「零一萬物」的模型有點異常

就是這么一款堪稱「國貨之光」的大模型產(chǎn)品，馬上引發(fā)了全球研究者的關(guān)注。

但很快就有人發(fā)現(xiàn)，Yi-34B基本上直接套用了LLaMA的設(shè)計架構(gòu)，只是重命名了兩個張量。

換句話說，就是你抄了班上同學(xué)的寒假作業(yè)，然后署了自己名字。

帖子還掛出了Yi-34B與LLaMA的代碼對比，高度吻合。

帖子作者還繼續(xù)指出，「零一萬物」上傳的開源代碼并沒有遵守業(yè)內(nèi)約定的代碼策略，也沒有解釋模型微調(diào)的方法。這就造成其他開發(fā)者無法復(fù)現(xiàn)Yi-34B的基準(zhǔn)測試，讓人不禁懷疑排行榜高分的真實性。

因為聲量不大，帖子發(fā)出去沒多久就石沉大海，不了了之。

此外，并非只有一位開發(fā)者對「零一萬物」提出質(zhì)疑，Hugging Face評論區(qū)的多位網(wǎng)友表示：如果Yi-34B確切使用Meta的架構(gòu)、代碼庫和所有相關(guān)開源的資源，就應(yīng)該遵守LLaMA約定的許可協(xié)議。

在這里，EVA簡單科普一下所謂的“開源許可協(xié)議”——

開源，的的確確是免費使用，但并不是讓你直接署名。開源代碼的使用者務(wù)必遵守開源產(chǎn)品作者提及的相關(guān)許可要求，但它沒有強制約束力。

「零一萬物」口碑暴雷

因為僅限于模型開發(fā)者的小圈子討論，這件事也就這么波瀾不驚地度過了一周。一直到昨日，曾在阿里任職的AI界大佬賈揚清在朋友圈發(fā)聲——出圈了。

賈揚清博士，曾經(jīng)在Facebook(Meta前身)、阿里巴巴達(dá)摩院任職的AI科學(xué)家，目前自主創(chuàng)業(yè)。

他表示，最近正在為Yi-34B做產(chǎn)品適配，有朋友提醒他，這款模型只需要把LLaMA的名字改成「零一萬物」就可以搞定了。

至此點燃了整個AI圈的“怒火”。?

「零一萬物」回應(yīng)抄襲質(zhì)疑

很快，官方就出來回應(yīng)了……

@機(jī)器之心向「零一萬物」進(jìn)行了求證。官方表示：

GPT是一個業(yè)內(nèi)公認(rèn)的成熟架構(gòu)，LLaMA在GPT上做了總結(jié)。零一萬物研發(fā)大模型的結(jié)構(gòu)設(shè)計基于GPT成熟結(jié)構(gòu)，借鑒了行業(yè)頂尖水平的公開成果，同時基于零一萬物團(tuán)隊對模型和訓(xùn)練的理解做了大量工作，這是我們首次發(fā)布獲得優(yōu)秀結(jié)果的地基之一。與此同時，零一萬物也在持續(xù)探索模型結(jié)構(gòu)層面本質(zhì)上的突破。

模型結(jié)構(gòu)僅是模型訓(xùn)練其中一部分。Yi開源模型在其他方面的精力，比如數(shù)據(jù)工程、訓(xùn)練方法、baby sitting(訓(xùn)練過程監(jiān)測)的技巧、hyperparameter設(shè)置、評估方法以及對評估指標(biāo)的本質(zhì)理解深度、對模型泛化能力的原理的研究深度、行業(yè)頂尖的AI Infra能力等，投入了大量研發(fā)和打底工作，這些工作往往比起基本結(jié)構(gòu)能起到更大的作用跟價值，這些也是零一萬物在大模型預(yù)訓(xùn)練階段的核心技術(shù)護(hù)城河。

在大量訓(xùn)練實驗過程中，由于實驗執(zhí)行需求對代碼做了更名，我們尊重開源社區(qū)的反饋，將代碼進(jìn)行更新，也更好的融入Transformer生態(tài)。

我們非常感謝社區(qū)的反饋，我們在開源社區(qū)剛剛起步，希望和大家攜手共創(chuàng)社區(qū)繁榮，Yi Open-source會盡最大努力持續(xù)進(jìn)步。

看完這份“公關(guān)聲明”，不得不說，就很像用GPT寫的…“借鑒”這用詞，就很靈性。?

沒看懂是吧，有好事網(wǎng)友借助GPT對此進(jìn)行了“翻譯”——

這個回應(yīng)確實對上述的一些問題進(jìn)行了解釋。

首先，他們承認(rèn)了模型的設(shè)計基于GPT，同時也借鑒了行業(yè)頂尖水平的公開成果，包括LLaMA。他們強調(diào)了自己團(tuán)隊對模型和訓(xùn)練的理解以及在模型結(jié)構(gòu)層面的探索，這是對原創(chuàng)性貢獻(xiàn)的一種表述。

其次，他們強調(diào)了模型訓(xùn)練不僅僅是模型結(jié)構(gòu)，還包括了數(shù)據(jù)工程、訓(xùn)練方法、訓(xùn)練過程監(jiān)測的技巧、超參數(shù)設(shè)置、評估方法等多個方面的工作，這些都是他們的貢獻(xiàn)。

再次，他們承認(rèn)了在實驗執(zhí)行需求中對代碼進(jìn)行了更名，并表示尊重開源社區(qū)的反饋，將代碼進(jìn)行更新，更好的融入Transformer生態(tài)，這是對代碼提交方式問題的回應(yīng)。

最后，他們表示感謝社區(qū)的反饋，并表示會盡最大努力持續(xù)進(jìn)步，這是對社區(qū)的尊重和承諾。

總的來說，這個回應(yīng)在一定程度上解答了人們對他們貢獻(xiàn)的疑問，并表示了對社區(qū)的尊重和承諾。然而，對于模型配置、微調(diào)數(shù)據(jù)和基準(zhǔn)測試等方面的問題，他們并沒有給出明確的回應(yīng)。因此，他們可能需要在這些方面提供更多的信息和解釋，以消除人們的疑慮。

大白話就是：我抄了作業(yè)，不僅署名，而且還拿去評比得獎，但競賽過程是我親力親為，我并沒有問題。

Emmm…OK。創(chuàng)業(yè)成功未知，“一鳴驚人”是兌現(xiàn)了。?

屏幕前的家人們，你們對此怎么看呢?