OpenAI发布Sora文生视频大模型,清华大学亦有新专利公布
【HowToTech科技】2月21日消息,近日,人工智能领域的领军企业OpenAI发布了其首款名为Sora的文本生成视频大模型。这款模型能够根据用户提供的文字提示,生成长达60秒的高质量视频。令人惊叹的是,Sora所输出的视频效果堪比专业的影视CG,因此在发布后迅速引爆了科技圈。
与此同时,在文生视频技术的研发上,国内高校也取得了显著进展。据国家知识产权局网站公布的信息,清华大学于2月2日申请了一项名为“一种定制化多主体文生视频方法、装置、设备及介质”的专利。该专利涉及神经网络技术领域,为文生视频技术的进一步发展提供了新的思路。
据HowToTech科技了解,清华大学的这项专利申请中详细描述了一种定制化多主体文生视频的方法。该方法需要获取多个主体分别对应的主体文本表述以及主体图像;然后,基于这些信息,进一步获取混合文本和组合图像。接下来,将混合文本和组合图像输入到文生视频模型中,生成第二噪声预测值,并根据这个预测值与组合图像,计算出第二损失和第三损失。通过综合考虑第一损失、第二损失与第三损失,对文生视频模型进行优化,从而得到一个性能更优的文生视频模型。
这项专利技术的创新之处在于,它通过多种损失函数对文生视频模型的参数进行优化,确保在基于文本描述生成视频中的图像时,文本描述与定制化主体能够保持一致。同时,该技术在生成过程中能够确保每个主体的特征不会发生混淆,并且在最终的视频中消除合成痕迹,从而提升视频的整体质量和观感。
延伸阅读:
OpenAI 测试长输出版 GPT-4o:单次输出达64K tokens
【HowToTech科技】8月1日消息,OpenAI在7月29日透露,他们正在对一款名为GPT-4o Long Outp...
ISC.AI2024数字安全峰会:360、华为、微软等共话安全+AI新挑战
7月31日,ISC.AI 2024数字安全峰会在北京国家会中心顺利召开。峰会以“打造安全大模型,引领安全行业革命”为主题...
ISC.AI2024开幕 周鸿祎发布国内首个免费安全大模型
“把大模型拉下神坛就要把免费贯彻到底,今天我在行业里第一个宣布安全大模型免费。”7月31日,ISC.AI2024第十二届...
实时对话更自然,OpenAI 向部分付费订阅用户开放 GPT-4o 语音模式
【HowToTech科技】7月31日消息,OpenAI于当地时间30日宣布,即日起GPT-4o的语音模式(注:Alpha...