首页双碳基础知识碳达峰碳中和其他报告文献OpenAI全新发布文生视频模型Sora,AI视频奇点时刻来临
admin

文档

5695

关注

0

好评

0
PDF

OpenAI全新发布文生视频模型Sora,AI视频奇点时刻来临

阅读 838 下载 113 大小 3.7M 总页数 12 页 2024-03-24 分享
价格:¥ 4.99
下载文档
/ 12
全屏查看
OpenAI全新发布文生视频模型Sora,AI视频奇点时刻来临
还有 12 页未读 ,您可以 继续阅读 或 下载文档
1、本文档共计 12 页,下载后文档不带水印,支持完整阅读内容或进行编辑。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

5、有任何问题,文件需求请联系WX:baomafenxiang520

行业研究丨点评报告丨软件与服务AI产业速递(13):OpenAl全新发布文生视频模型Sora,AI+视频奇点时刻来临报告要点2月16日凌晨,OpenA全新发布文生视频模型Sora,在生成长度、语义理解、生成质量等方面实现重大突破,进一步打开了商业化空间。生成长度方面,S0阳模型目前支持最长生成60秒的视频,远高于过去的10S左右:语义理解方面,So阳已经可以在一定程度上理解偏意象的关键词表述并生成符合逻辑的画面,较此前第三方模型有巨大进步:生成质量方面,画面的一致性、可控性、丰富程度都较之前有明显提升。我们认为,成像质量的提高+生成时长瓶颈的突破将大幅打开下游商业化空间。分析师及联系人宗建树SAC:S0490520030004请阅读最后评级说明和重要声明软件与服务2024-02-17AI产业速递(13):OpenAl全新发布文生视频行业研究【点评报告模型Sora,AI+视频奇点时刻来临事件描述市场表现对比图(近12个月)2月16日凌晨,OpenAl全新发布文生视频模型Sora,在生成长度、语义理解、生成质量等一沪300指数方面实现重大突破,进一步打开了商业化空间。生成长度方面,S0阳模型目前支持最长生成60秒的视频,远高于过去的10S左右;语义理解方面,So阳已经可以在一定程度上理解偏意象的关键词表述并生成符合逻辑的画面,较此前第三方模型有巨大进步:生成质量方面,画面的一致性、可控性、丰富程度都较之前有明显提升。我们认为,成像质量的提高+生成时长瓶颈0236的突破将大幅打开下游商业化空间。事件评论·从释出视频看,Sora在现有行业难点方面出现了明显的进步。截至2023年底P1ka1.0推相关研究出之时,文生视频行业目前存在几个明显问题:一是语言控制能力较弱,具体表现如生成视频图像与文字不符:二是单帧画面细节不清晰,即成像质量不高,细节较少;三是连续片市场》2024-02-06帧的动作不连贯,即可控性不高,存在不同程度的畸变。但从目前释出的视频看,不管是从细节亦或是整体连贯方面,S0r阳都大幅领先于目前所有工作室。值得一提的是,粹通2024-02-06过模型的尺度扩展,Sor已经在训练过程中自然涌现了许多令人兴奋的新能力。这些功能使得Sora能够模拟现实世界中的人物、动物和环境等某些方面。目前Soa的局限性一计算机行业202304基金特仓分析》2024-02-包括比如例如不能准确地模拟许多基本相互作用的物理过程,或在某些交互场景中并不05能总是产生正确的对象状态变化。So「在生成的时间上突破了10秒左右的限制,结合成像质量的提高,或将大幅打开商业空间。除去成像质量不高的问题之外,生成时长较短亦是限制行业商业化落地的主因。此前文生视频行业在市场方面几乎无法使用技术手段突破10秒的限制,因此难以对下游潜在落地行业(如影视业)产生较大的帮助,从而大大限制了其商业化的空间。而Soa通过一次性生成关联性较好的多帧,突破了10s的限制,生成程度达到了分钟级别,这对未来商业化空间的撬动产生了本质的变化。So「展现出与竞品的代际差距或将对现有的文生视频、文生图行业格局产生较大的影响。文生视频行业角度,So现有的视频明显领先于行业,或将率先趟出文生视频的商业化途径,从而影响现有的行业格局。而从文生图行业角度,过去由于文生视频的单帧成像质量一般,与文生图行业龙头Midjourney等行业龙头差距较大,因此两条赛道暂时处于相对独立发展的阶段。但目前So阳的文生图质量已经逼近文生图行业头部水平,将对现有的第三方纯文生图公司产生较大的威胁。重点关注统一编码+窗口注意力架构对于文生视频行业的推动。统一编码(unifiedrepresentation)指的是将各类可视数据转化为统一表示的方法,从而实现了对生成式模型的大规模训练。窗口注意力架构是一种基于Transformer的潜在视频扩散模型(latentvideo diffusion models,LVDM)方法,用于提高记忆和训练效率。.1风险提示1、A技术发展不及预期风险:更多研报请访问2、行业监管风险。长江研究小程序请阅读最后评级说明和重要声明
返回顶部