亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁  >  資訊  >  文章
2024-09-12 09:09

Vidu視頻大模型重磅升級(jí):實(shí)現(xiàn)主體場景遷移丨GPT-4o語音功能的高管跑路丨夸克發(fā)布AI寫作助手CueMe

AI奇點(diǎn)網(wǎng)2024年9月12日?qǐng)?bào)道丨AI資訊早報(bào)

生數(shù)科技Vidu視頻大模型重磅升級(jí):實(shí)現(xiàn)主體場景遷移

9月11日,由生數(shù)科技和清華大學(xué)聯(lián)合研發(fā)的視頻大模型Vidu迎來重大更新,加入了“主體參照”(Subject Consistency)功能,該功能能夠?qū)崿F(xiàn)對(duì)任意主體的一致性生成,讓視頻生成更加穩(wěn)定、可控。目前該功能面向用戶免費(fèi)開放。

現(xiàn)階段,無論是文生圖,還是文生視頻,都存在嚴(yán)重的主體一致性問題。

生數(shù)科技舉辦的媒體開放日活動(dòng)上,對(duì)外展示了“主體參照”功能,該功能允許用戶上傳任意主體的一張圖片,Vidu 就能夠鎖定該主體的形象,通過描述詞任意切換場景,輸出主體一致的視頻。

該功能不局限于單一對(duì)象,而是面向“任意主體”,無論是人物、動(dòng)物、商品,還是動(dòng)漫角色、虛構(gòu)主體,都能確保其在視頻生成中的一致性和可控性,這是視頻生成領(lǐng)域的一大創(chuàng)新。

無論是真實(shí)人物還是虛構(gòu)角色,Vidu 都能保持其在不同環(huán)境中、不同鏡頭下的形象連貫一致。Vidu 也是全球首個(gè)支持該能力的視頻大模型。

OpenAI高管又跑路 :GPT-4o語音模式主管離職

當(dāng)?shù)貢r(shí)間9月10日,據(jù)外媒報(bào)道,OpenAI 的音頻 AGI 團(tuán)隊(duì)的研究主管 Alexis Conneau 宣布將離開公司,進(jìn)行個(gè)人創(chuàng)業(yè),他同時(shí)也是該公司實(shí)時(shí)互動(dòng)語音大模型 GPT-4o 研究團(tuán)隊(duì)的重要技術(shù)成員。

圖片

Alexis Conneau 在 2023 年 4 月加入 OpenAI,幫助 OpenAI 實(shí)現(xiàn)了類似于「HER」(她是機(jī)器人)的人工智能愿景,他也參與了 GPT-4o 實(shí)時(shí)音頻技術(shù),以及下一代大模型 GPT-5 的相關(guān)研發(fā)工作中。

根據(jù)彭博社最新的報(bào)道顯示,OpenAI 目前的估值為 1500 億美元,正在洽談從投資者處籌集 65 億美元資金,以及從銀行處獲得 50 億美元信貸額度。

李彥宏內(nèi)部講話:未來大模型之間的差距將拉大

據(jù)媒體報(bào)道,近日新浪獨(dú)家披露,百度 CEO 李彥宏在公司內(nèi)部進(jìn)行了一次內(nèi)部講話內(nèi)容,談到了業(yè)界對(duì)于大模型的認(rèn)識(shí)誤區(qū),涵蓋大模型競爭、開源模型效率、智能體趨勢等。

圖片

李彥宏在演講中表示,未來大模型之間的差距可能會(huì)越來越大,模型的天花板很高,現(xiàn)在距離理想情況還相差非常遠(yuǎn),所以模型要不斷快速迭代、更新和升級(jí)。大模型的投入,需要能幾年、十幾年如一日地投入,不斷滿足用戶需求,降本增效。

李彥宏指出,模型之間的差距是多維度的,一個(gè)維度是「能力」方面:理解能力、生成能力、邏輯推理能力、記憶能力等;另一個(gè)維度是「成本」方面:想具備這個(gè)能力或者想回答這些問題,付出的成本是多少。

可以讀懂唇語的AI產(chǎn)品Readtheirlips,火了

最近,國外一款據(jù)稱可以輕松讀出人類的唇語的 AI 軟件 Readtheirlips  火了!

Readtheirlips 是一款利用人工智能技術(shù)進(jìn)行唇語識(shí)別的軟件。它通過分析視頻中人物的嘴部動(dòng)作來識(shí)別和轉(zhuǎn)錄所說的內(nèi)容。根據(jù)搜索結(jié)果,這款軟件在某些情況下表現(xiàn)出色,例如當(dāng)視頻中的人物正臉對(duì)著鏡頭時(shí),Readtheirlips 能夠準(zhǔn)確地識(shí)別和轉(zhuǎn)錄對(duì)話內(nèi)容。

讓我們簡單了解這款產(chǎn)品是如何讀取唇語的:

首先,研究團(tuán)隊(duì)根據(jù)已知的嘴唇運(yùn)動(dòng)動(dòng)作大數(shù)據(jù)與文本內(nèi)容,采取大量的標(biāo)注數(shù)據(jù)來對(duì)模型進(jìn)行訓(xùn)練。

在此基礎(chǔ)上,用戶要上傳一段視頻,這段視頻要包含說話者的面部特寫,尤其是嘴部動(dòng)作。

然后模型會(huì)對(duì)視頻進(jìn)行嘴部運(yùn)動(dòng)的分析:先是通過面部檢測識(shí)別嘴唇的位置,然后再提取嘴唇的幾何特征,(形狀、開合程度、運(yùn)動(dòng)軌跡等),最后分析嘴唇在說話過程中的動(dòng)態(tài)變化(語速、方向和形狀變化)。

最后,大模型會(huì)將提取的嘴唇特征與訓(xùn)練數(shù)據(jù)中的特征進(jìn)行匹配,來識(shí)別出視頻中人物所說的內(nèi)容。

將識(shí)別出的單詞或短語組合成完整的句子,進(jìn)行一下上下文理解,確保語法和語義的正確性。最終將識(shí)別出的內(nèi)容輸出為文本格式。

夸克發(fā)布智能寫作助理CueMe,支持20萬字長文

9月12日,阿里旗下夸克發(fā)布全新智能對(duì)話助手 CueMe,用戶現(xiàn)可通過登錄 cueme.cn 或在夸克 App、小程序等平臺(tái)使用。

CueMe 是基于夸克大模型自主研發(fā),AI 寫作能力突出,支持不同體裁、不同篇幅的內(nèi)容生成,最長可生成 2 萬字的內(nèi)容。

夸克表示,CueMe 針對(duì)不同細(xì)分體裁進(jìn)行了充分的語料預(yù)訓(xùn)練,可支持上千種不同體裁的寫作需求,包括研究報(bào)告、日常寫作、課程論文、新媒體文案等等,并且還在持續(xù)擴(kuò)展中。

此外,CueMe 還支持文風(fēng)定制,用戶可選擇根據(jù)平臺(tái)風(fēng)格、語言風(fēng)格或個(gè)人文章風(fēng)格生成符合其個(gè)性化需求的內(nèi)容。

圖片 3

據(jù)夸克官方介紹,CueMe 實(shí)現(xiàn)了三項(xiàng)關(guān)鍵技術(shù)突破 —— 長文本理解與生成、專業(yè)知識(shí)檢索與增強(qiáng)、以及復(fù)雜多輪文創(chuàng)指令遵循。在此基礎(chǔ)上,CueMe 從三個(gè)方向進(jìn)行內(nèi)容深度優(yōu)化。

首先是結(jié)構(gòu),對(duì)于研究報(bào)告等長文,高質(zhì)量大綱生成是確保內(nèi)容結(jié)構(gòu)合理、邏輯清晰的關(guān)鍵。

其次是引用素材時(shí)效性強(qiáng)、內(nèi)容豐富。

最后在生成內(nèi)容中增加細(xì)節(jié)描述和鮮明觀點(diǎn),從而讓生成內(nèi)容不再“AI 痕跡明顯”或者泛泛而談。

圖片 4

以大綱內(nèi)容優(yōu)化為例,CueMe 首先會(huì)根據(jù)需求生成有明確方向的的高質(zhì)量大綱,同時(shí)通過“增加每一部分具體內(nèi)容描述”、“增加一個(gè)國際比較章節(jié)”等推薦指令,引導(dǎo)用戶進(jìn)一步打磨大綱。當(dāng)然,用戶也可直接與 CueMe 對(duì)話,輸入具體修改要求。

馬斯克:特斯拉2025年列裝Dojo 2 AI訓(xùn)練芯片,對(duì)標(biāo)英偉達(dá)B200

當(dāng)?shù)貢r(shí)間9月10日,馬斯克出席 All-In Summit 2024 活動(dòng)時(shí),并發(fā)表了重要的產(chǎn)品推薦講話。

他透露,特斯拉的下代 AI 運(yùn)算芯片 Dojo 2 將于 2025 年末批量裝備。

會(huì)議現(xiàn)場

馬斯克表示在特斯拉的 AI 基礎(chǔ)設(shè)施結(jié)構(gòu)中 Dojo 負(fù)責(zé)模型訓(xùn)練,而車端芯片負(fù)責(zé)模型推理。特斯拉未來將推出數(shù)代 Dojo 芯片。

其中預(yù)計(jì) 2025 年末實(shí)現(xiàn)批量裝備的 Dojo 2 可與英偉達(dá) B200 AI 訓(xùn)練系統(tǒng)在一定程度上具有可比性;而再下一代的 Dojo 3 則有可能于 2026 年晚些時(shí)候推出。

馬斯克認(rèn)為技術(shù)通常需要 3 次重大迭代才能達(dá)到卓越水平,因此等到 Dojo 3 才能知道 Dojo 系列芯片到底有多么優(yōu)秀。

7
查看相關(guān)話題: #Vidu #AI視頻 #OpenAI #夸克 #特斯拉 #李彥宏

相關(guān)文章