一区欧美色,亚洲三级高清免费

亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁 > 資訊 > 文章

2024-09-12 09:09

Vidu視頻大模型重磅升級(jí)：實(shí)現(xiàn)主體場景遷移丨GPT-4o語音功能的高管跑路丨夸克發(fā)布AI寫作助手CueMe

AI奇點(diǎn)網(wǎng)2024年9月12日?qǐng)?bào)道丨AI資訊早報(bào)

生數(shù)科技Vidu視頻大模型重磅升級(jí)：實(shí)現(xiàn)主體場景遷移

9月11日，由生數(shù)科技和清華大學(xué)聯(lián)合研發(fā)的視頻大模型Vidu迎來重大更新，加入了“主體參照”（Subject Consistency）功能，該功能能夠?qū)崿F(xiàn)對(duì)任意主體的一致性生成，讓視頻生成更加穩(wěn)定、可控。目前該功能面向用戶免費(fèi)開放。

現(xiàn)階段，無論是文生圖，還是文生視頻，都存在嚴(yán)重的主體一致性問題。

生數(shù)科技舉辦的媒體開放日活動(dòng)上，對(duì)外展示了“主體參照”功能，該功能允許用戶上傳任意主體的一張圖片，Vidu 就能夠鎖定該主體的形象，通過描述詞任意切換場景，輸出主體一致的視頻。

該功能不局限于單一對(duì)象，而是面向“任意主體”，無論是人物、動(dòng)物、商品，還是動(dòng)漫角色、虛構(gòu)主體，都能確保其在視頻生成中的一致性和可控性，這是視頻生成領(lǐng)域的一大創(chuàng)新。

無論是真實(shí)人物還是虛構(gòu)角色，Vidu 都能保持其在不同環(huán)境中、不同鏡頭下的形象連貫一致。Vidu 也是全球首個(gè)支持該能力的視頻大模型。

OpenAI高管又跑路：GPT-4o語音模式主管離職

當(dāng)?shù)貢r(shí)間9月10日，據(jù)外媒報(bào)道，OpenAI 的音頻 AGI 團(tuán)隊(duì)的研究主管 Alexis Conneau 宣布將離開公司，進(jìn)行個(gè)人創(chuàng)業(yè)，他同時(shí)也是該公司實(shí)時(shí)互動(dòng)語音大模型 GPT-4o 研究團(tuán)隊(duì)的重要技術(shù)成員。

Alexis Conneau 在 2023 年 4 月加入 OpenAI，幫助 OpenAI 實(shí)現(xiàn)了類似于「HER」（她是機(jī)器人）的人工智能愿景，他也參與了 GPT-4o 實(shí)時(shí)音頻技術(shù)，以及下一代大模型 GPT-5 的相關(guān)研發(fā)工作中。

根據(jù)彭博社最新的報(bào)道顯示，OpenAI 目前的估值為 1500 億美元，正在洽談從投資者處籌集 65 億美元資金，以及從銀行處獲得 50 億美元信貸額度。

李彥宏內(nèi)部講話：未來大模型之間的差距將拉大

據(jù)媒體報(bào)道，近日新浪獨(dú)家披露，百度 CEO 李彥宏在公司內(nèi)部進(jìn)行了一次內(nèi)部講話內(nèi)容，談到了業(yè)界對(duì)于大模型的認(rèn)識(shí)誤區(qū)，涵蓋大模型競爭、開源模型效率、智能體趨勢等。

李彥宏在演講中表示，未來大模型之間的差距可能會(huì)越來越大，模型的天花板很高，現(xiàn)在距離理想情況還相差非常遠(yuǎn)，所以模型要不斷快速迭代、更新和升級(jí)。大模型的投入，需要能幾年、十幾年如一日地投入，不斷滿足用戶需求，降本增效。

李彥宏指出，模型之間的差距是多維度的，一個(gè)維度是「能力」方面：理解能力、生成能力、邏輯推理能力、記憶能力等;另一個(gè)維度是「成本」方面：想具備這個(gè)能力或者想回答這些問題，付出的成本是多少。

可以讀懂唇語的AI產(chǎn)品Readtheirlips，火了

最近，國外一款據(jù)稱可以輕松讀出人類的唇語的 AI 軟件 Readtheirlips 火了！

Readtheirlips 是一款利用人工智能技術(shù)進(jìn)行唇語識(shí)別的軟件。它通過分析視頻中人物的嘴部動(dòng)作來識(shí)別和轉(zhuǎn)錄所說的內(nèi)容。根據(jù)搜索結(jié)果，這款軟件在某些情況下表現(xiàn)出色，例如當(dāng)視頻中的人物正臉對(duì)著鏡頭時(shí)，Readtheirlips 能夠準(zhǔn)確地識(shí)別和轉(zhuǎn)錄對(duì)話內(nèi)容。

讓我們簡單了解這款產(chǎn)品是如何讀取唇語的：

首先，研究團(tuán)隊(duì)根據(jù)已知的嘴唇運(yùn)動(dòng)動(dòng)作大數(shù)據(jù)與文本內(nèi)容，采取大量的標(biāo)注數(shù)據(jù)來對(duì)模型進(jìn)行訓(xùn)練。

在此基礎(chǔ)上，用戶要上傳一段視頻，這段視頻要包含說話者的面部特寫，尤其是嘴部動(dòng)作。

然后模型會(huì)對(duì)視頻進(jìn)行嘴部運(yùn)動(dòng)的分析：先是通過面部檢測識(shí)別嘴唇的位置，然后再提取嘴唇的幾何特征，(形狀、開合程度、運(yùn)動(dòng)軌跡等)，最后分析嘴唇在說話過程中的動(dòng)態(tài)變化（語速、方向和形狀變化）。

最后，大模型會(huì)將提取的嘴唇特征與訓(xùn)練數(shù)據(jù)中的特征進(jìn)行匹配，來識(shí)別出視頻中人物所說的內(nèi)容。

將識(shí)別出的單詞或短語組合成完整的句子，進(jìn)行一下上下文理解，確保語法和語義的正確性。最終將識(shí)別出的內(nèi)容輸出為文本格式。

夸克發(fā)布智能寫作助理CueMe，支持20萬字長文

9月12日，阿里旗下夸克發(fā)布全新智能對(duì)話助手 CueMe，用戶現(xiàn)可通過登錄 cueme.cn 或在夸克 App、小程序等平臺(tái)使用。

CueMe 是基于夸克大模型自主研發(fā)，AI 寫作能力突出，支持不同體裁、不同篇幅的內(nèi)容生成，最長可生成 2 萬字的內(nèi)容。

夸克表示，CueMe 針對(duì)不同細(xì)分體裁進(jìn)行了充分的語料預(yù)訓(xùn)練，可支持上千種不同體裁的寫作需求，包括研究報(bào)告、日常寫作、課程論文、新媒體文案等等，并且還在持續(xù)擴(kuò)展中。

此外，CueMe 還支持文風(fēng)定制，用戶可選擇根據(jù)平臺(tái)風(fēng)格、語言風(fēng)格或個(gè)人文章風(fēng)格生成符合其個(gè)性化需求的內(nèi)容。

據(jù)夸克官方介紹，CueMe 實(shí)現(xiàn)了三項(xiàng)關(guān)鍵技術(shù)突破 —— 長文本理解與生成、專業(yè)知識(shí)檢索與增強(qiáng)、以及復(fù)雜多輪文創(chuàng)指令遵循。在此基礎(chǔ)上，CueMe 從三個(gè)方向進(jìn)行內(nèi)容深度優(yōu)化。

首先是結(jié)構(gòu)，對(duì)于研究報(bào)告等長文，高質(zhì)量大綱生成是確保內(nèi)容結(jié)構(gòu)合理、邏輯清晰的關(guān)鍵。

其次是引用素材時(shí)效性強(qiáng)、內(nèi)容豐富。

最后在生成內(nèi)容中增加細(xì)節(jié)描述和鮮明觀點(diǎn)，從而讓生成內(nèi)容不再“AI 痕跡明顯”或者泛泛而談。

以大綱內(nèi)容優(yōu)化為例，CueMe 首先會(huì)根據(jù)需求生成有明確方向的的高質(zhì)量大綱，同時(shí)通過“增加每一部分具體內(nèi)容描述”、“增加一個(gè)國際比較章節(jié)”等推薦指令，引導(dǎo)用戶進(jìn)一步打磨大綱。當(dāng)然，用戶也可直接與 CueMe 對(duì)話，輸入具體修改要求。