亚洲另类97色波,四季久久免费一区二区三区四区,丰满蜜桃精品视频网,国产在线观看无码九色8X视频亚洲中文字幕久久精品无码喷水_国产精品无码一区二区

AI動(dòng)漫視頻工具1.0—探索全新內(nèi)容創(chuàng)作設(shè)計(jì)理念與實(shí)現(xiàn)策略

2024-6-7 ui設(shè)計(jì)分享達(dá)人

一、項(xiàng)目背景

AI動(dòng)漫視頻是AIGC的熱門賽道之一，目前市面上許多動(dòng)漫領(lǐng)域核心玩家均布局或已啟動(dòng)AIGC動(dòng)漫內(nèi)容生產(chǎn)。我們希望為有意向進(jìn)行AIGC領(lǐng)域創(chuàng)作的PUGC創(chuàng)作者提供便捷的渠道及工具，通過孵化一批獨(dú)家的AIGC動(dòng)漫原創(chuàng)作者，入局動(dòng)漫創(chuàng)作行業(yè)核心圈，為平臺(tái)供給大量差異化原創(chuàng)內(nèi)容。

AI動(dòng)漫視頻工具1.0—探索全新內(nèi)容創(chuàng)作設(shè)計(jì)理念與實(shí)現(xiàn)策略

1.行業(yè)洞察

通過對(duì)AI動(dòng)漫視頻行業(yè)進(jìn)行深入調(diào)研洞察，我們發(fā)現(xiàn)其具有以下特點(diǎn)：

隨著小說推文行業(yè)規(guī)模擴(kuò)大，代理機(jī)構(gòu)及推文KOC達(dá)人賬號(hào)迅速增長，AI動(dòng)漫視頻訂單規(guī)模不斷擴(kuò)張。

在小說推文用戶群中，18-23歲的年輕人和女性用戶居多，著眼于抖音小說推文指數(shù)，用戶逐漸增加，且有逐漸“破圈”的趨勢。

目前小說推文KOC達(dá)人的用戶畫像，集中在女性學(xué)生和寶媽群體，表明女性達(dá)人對(duì)于小說內(nèi)容的理解更為透徹。

2.用戶痛點(diǎn)

同時(shí)我們發(fā)現(xiàn)，目前用戶使用AI動(dòng)漫視頻產(chǎn)品時(shí)的痛點(diǎn)主要集中在以下幾個(gè)方面：

1）文本內(nèi)容識(shí)別不準(zhǔn)確

畫面識(shí)別和文字匹配度不高，導(dǎo)致適配內(nèi)容畫面表現(xiàn)出現(xiàn)偏差，影響視頻效果。

2）圖像不受控制

不能保證同一人物在不同分鏡下的妝造一致，同個(gè)人物的服飾、發(fā)型等會(huì)發(fā)生變化，影響畫面內(nèi)容的連貫性。

3）風(fēng)格匹配度不高

AI動(dòng)漫視頻會(huì)存在較強(qiáng)的“機(jī)器感”，人物和場景風(fēng)格未必和漫畫風(fēng)格匹配。

4）動(dòng)態(tài)效果生硬

AI動(dòng)漫視頻終端交付內(nèi)容動(dòng)態(tài)不連貫，轉(zhuǎn)場效果很像PPT。

3.設(shè)計(jì)理念

基于此，我們對(duì)產(chǎn)品落地進(jìn)行細(xì)致規(guī)劃，將模型驅(qū)動(dòng)AI動(dòng)漫視頻能力落地「度加」創(chuàng)作工具，跑通從文章識(shí)別到視頻合成的完整流程，確?；A(chǔ)功能落地。從文本轉(zhuǎn)化、畫面控制、動(dòng)態(tài)能力等多方面調(diào)優(yōu)，對(duì)標(biāo)高質(zhì)量視頻要求，持續(xù)打磨工作流，支撐生態(tài)向高質(zhì)量內(nèi)容轉(zhuǎn)型。

1）優(yōu)質(zhì)視頻內(nèi)容促分發(fā)、提時(shí)長

我們持續(xù)打磨設(shè)計(jì)工作流，力求使自動(dòng)生產(chǎn)質(zhì)量達(dá)到動(dòng)漫視頻基線。

2）高效工具建立內(nèi)容創(chuàng)作優(yōu)勢

設(shè)計(jì)創(chuàng)新提升工具控制范圍和能力，保證輔助生產(chǎn)質(zhì)量追齊專業(yè)動(dòng)漫視頻水平。

二、搭建視頻生成流程

通過不斷打磨優(yōu)化，我們搭建了一套完整的視頻生成流程：設(shè)置基礎(chǔ)信息及視頻參數(shù)→上傳文本→角色/場景提煉（可重新生成至符合預(yù)期）→生成旁白及分鏡（可進(jìn)行編輯或重新生成至符合預(yù)期）→生成視頻。

三、聚類定制化風(fēng)格模型

1.七大類別模型選型

為了使生成效果更加適配漫畫內(nèi)容，解決風(fēng)格匹配度不高的問題，我們對(duì)市面上的熱門漫畫題材進(jìn)行了分析，根據(jù)其內(nèi)容進(jìn)行了分類梳理。共梳理出七大類別：都市現(xiàn)代、武俠仙俠、奇幻魔幻、恐怖懸疑、科幻賽博、末日廢土、兒童繪本。通過對(duì)類別內(nèi)容的判斷，選擇能表現(xiàn)其內(nèi)容特色的風(fēng)格模型。

為增加模型的可選擇性，每個(gè)類別下選擇2套模型進(jìn)行適配，同時(shí)增加通用模型，保證內(nèi)容品質(zhì)及風(fēng)格效果的全方面覆蓋。

2.模型選型標(biāo)準(zhǔn)

1）內(nèi)容準(zhǔn)確

目前使用的底模均為基于Stable Diffusion 1.5底模訓(xùn)練出來的模型。通用模型和垂直模型的區(qū)別在于，通用模型需要具備比較廣泛的通用的內(nèi)容識(shí)別能力，盡可能覆蓋熱門題材。例如DarkSushiMix這個(gè)模型，在熱門的都市和仙俠等題材中，均可以識(shí)別小說分鏡描述的內(nèi)容，生成符合預(yù)期的畫面，可以作為通用模型使用。

2）風(fēng)格契合

垂直模型更具有針對(duì)性，部分小說內(nèi)容具有強(qiáng)烈的特色風(fēng)格，在模型選擇中，除了對(duì)于文本內(nèi)容的識(shí)別，需要具備符合小說特色的風(fēng)格效果。這時(shí)除了篩選適合的底模以外，還可以使用底模+LoRA模型的方式，一方面保證畫面識(shí)別，另一方面滿足風(fēng)格需要。

在進(jìn)行了大量評(píng)測組合后，我們選擇出適合7大類別的模型搭配。例如在兒童繪本類別下，適配了童趣和國風(fēng)兩種風(fēng)格。通用的底模雖然可以將畫面內(nèi)容呈現(xiàn)出來，但是風(fēng)格上與兒童繪本差異較大，會(huì)導(dǎo)致觀感上與小說本身產(chǎn)生差異，模型適配準(zhǔn)確后，就可以生成符合預(yù)期的畫面效果了。

3）畫面美觀

畫面美觀包含內(nèi)容準(zhǔn)確、風(fēng)格契合、人物畫面無崩壞等多個(gè)方面。內(nèi)容準(zhǔn)確與風(fēng)格契合在上面進(jìn)行了總結(jié)，關(guān)于人物畫面的實(shí)現(xiàn)效果上，AI生圖在尺寸較小的情況下會(huì)出現(xiàn)部分Bug，主要受到影響的是面部清晰度。因此，我們選擇使用Adetailer插件進(jìn)行面部修復(fù)，保證人物的清晰美觀。

四、多視角鏡頭控制畫面

在工具初建階段，重點(diǎn)采用Prompt控制鏡頭視角的多樣性。我們測試了大量鏡頭視角描述詞在不同模型及內(nèi)容描述下的效果，總結(jié)出5個(gè)效果識(shí)別顯著的詞匯：Close-up（特寫）、From below（仰視）、Top view（俯視）、Front view（正視角）、From side（側(cè)視角）。鏡頭視角描述詞根據(jù)策略隨機(jī)適配，避免連續(xù)出現(xiàn)相近視角的畫面，確保畫面構(gòu)圖的豐富度。

五、多尺寸及轉(zhuǎn)場增強(qiáng)畫面豐富度

1.規(guī)范制定

我們制定了比例和尺寸兩方面的規(guī)范。

比例設(shè)定：設(shè)定「16:9、9:16、4:3、3:4」4套生圖比例，選擇4個(gè)識(shí)別度高的字體匹配4套比例，滿足用戶對(duì)視頻橫板和豎版的不同要求。

生圖及視頻尺寸：為保證較快的生圖速度，生圖過程中，先使用較小的生圖尺寸，再通過超分?jǐn)U大圖片保證畫質(zhì)清晰度，同時(shí)對(duì)畫面在視頻中的范圍及尺寸進(jìn)行規(guī)范。以16:9為例，在該比例下，生圖尺寸若與視頻尺寸一致，畫面過長，AI生圖會(huì)出現(xiàn)相對(duì)不可控的情況。經(jīng)過多輪測試評(píng)估發(fā)現(xiàn)，將畫面尺寸控制在4:3的范圍內(nèi)效果最佳，16:9的高清視頻尺寸為1920x1080，所以畫面的部分生圖使用了684x512（4:3）的尺寸，再通過超分?jǐn)U展為1440x1080（4:3）。

2.運(yùn)鏡轉(zhuǎn)場

為避免視頻有類似PPT切換圖片的感受，增加運(yùn)鏡和轉(zhuǎn)場，運(yùn)鏡主要為上移、下移、放大，轉(zhuǎn)場設(shè)計(jì)了下滑、右滑、位移、旋轉(zhuǎn)等8個(gè)效果。

六、多音頻選擇提升臨場感

1.基礎(chǔ)能力

我們使用度加TTS旁白與端內(nèi)音樂進(jìn)行合成，音色及背景音樂提供多個(gè)種類選擇，音量、語速均可調(diào)整，保證音頻與畫面的最佳契合度。

2. AI音視頻賦能內(nèi)容生產(chǎn)

Meta正式開源了一款名為AudioCraft的AI音頻和音樂生成工具，該工具可以直接從文本描述和參考音樂生成高質(zhì)量的音頻和音樂。AudioCraft包含MusicGen、AudioGen和EnCodec三個(gè)模型，分別實(shí)現(xiàn)音樂生成、音頻生成和自定義音頻模型構(gòu)建。我們不斷探索音頻模型的內(nèi)容供給，規(guī)劃AI音效庫建立模式，為素材供給擴(kuò)展可能性。

下面是我們1.0階段產(chǎn)出的視頻效果：

Current Time 0:00

Duration Time 2:28

Loaded: 0%

Progress: 0.00%

下期預(yù)告

本篇內(nèi)容主要為AI動(dòng)漫視頻工具的基礎(chǔ)能力搭建，概述了我們?cè)谀Ｐ凸┙o、畫面控制、規(guī)范制定、音頻合成等多個(gè)方面如何進(jìn)行調(diào)優(yōu)，以滿足產(chǎn)品功能。在未來的工具2.0迭代中，我們還將從文本轉(zhuǎn)化、畫面控制、動(dòng)態(tài)生成能力等方面入手，全面提升視頻品質(zhì)。此外，我們還會(huì)通過對(duì)多項(xiàng)AI能力的探索，衍生短劇、預(yù)告片生成能力，打造AI生視頻領(lǐng)域頭部產(chǎn)品。大家敬請(qǐng)期待吧~

感謝閱讀，以上內(nèi)容均由百度MEUX團(tuán)隊(duì)原創(chuàng)設(shè)計(jì)，以及百度MEUX版權(quán)所有，轉(zhuǎn)載請(qǐng)注明出處，違者必究，謝謝您的合作。申請(qǐng)轉(zhuǎn)載授權(quán)后臺(tái)回復(fù)【轉(zhuǎn)載】。

作者：百度MEUX
鏈接：https://www.zcool.com.cn/article/ZMTYyMzY1Ng==.html
來源：站酷
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán)，非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。

藍(lán)藍(lán)設(shè)計(jì)(www.teruid.com )是一家專注而深入的界面設(shè)計(jì)公司，為期望卓越的國內(nèi)外企業(yè)提供卓越的大數(shù)據(jù)可視化界面設(shè)計(jì)、B端界面設(shè)計(jì)、桌面端界面設(shè)計(jì)、APP界面設(shè)計(jì)、圖標(biāo)定制、用戶體驗(yàn)設(shè)計(jì)、交互設(shè)計(jì)、UI咨詢、高端網(wǎng)站設(shè)計(jì)、平面設(shè)計(jì)，以及相關(guān)的軟件開發(fā)服務(wù)，咨詢電話：01063334945。

關(guān)鍵詞：UI咨詢、UI設(shè)計(jì)服務(wù)公司、軟件界面設(shè)計(jì)公司、界面設(shè)計(jì)公司、UI設(shè)計(jì)公司、UI交互設(shè)計(jì)公司、數(shù)據(jù)可視化設(shè)計(jì)公司、用戶體驗(yàn)公司、高端網(wǎng)站設(shè)計(jì)公司

銀行金融軟件UI界面設(shè)計(jì)、能源及監(jiān)控軟件UI界面設(shè)計(jì)、氣象行業(yè)UI界面設(shè)計(jì)、軌道交通界面設(shè)計(jì)、地理信息系統(tǒng)GIS UI界面設(shè)計(jì)、航天軍工軟件UI界面設(shè)計(jì)、醫(yī)療行業(yè)軟件UI界面設(shè)計(jì)、教育行業(yè)軟件UI界面設(shè)計(jì)、企業(yè)信息化UI界面設(shè)計(jì)、軟件qt開發(fā)、軟件wpf開發(fā)、軟件vue開發(fā)

分享本文至：

« 構(gòu)建高效標(biāo)簽體系：如何優(yōu)化平臺(tái)權(quán)益感知，提升用戶體驗(yàn)？ 2024 年十大UX/UI設(shè)計(jì) 趨勢 »

亚洲另类97色波,四季久久免费一区二区三区四区,丰满蜜桃精品视频网,国产在线观看无码九色8X视频亚洲中文字幕久久精品无码喷水_国产精品无码一区二区

AI動(dòng)漫視頻工具1.0—探索全新內(nèi)容創(chuàng)作設(shè)計(jì)理念與實(shí)現(xiàn)策略

分類

日歷

鏈接

個(gè)人資料

存檔