OpenAI Sora 降世:背后的商业洞察与技术创新|此话当真 EP18

用声音,听见真格。


「此话当真」是一档泛商业类播客,我们希望搭建这样一个分享和交流的平台,让每一个对商业、科技、创投充满好奇的人都能在这里有所收获。每期播客将会由不同的真格投资人担任主持,和各领域的领军人物一起带大家深入了解科技趋势,以及创新技术的影响力。交流科技热点,我们只想给你最专业的解读。


当然,我们希望这不仅仅是一个播客,更是一次创业的探索。真格,你的创业第一站!我们期待与你相遇,一同发现新的可能。



2 月 16 日,OpenAI 文生视频大模型「Sora」横空出世,一石激起千层浪。


从文生视频中斑点狗落脚的位置、游戏 demo 的光标颜色,到「世界模拟器」畅想,在 Sora 开放使用之前,我们的思考早已出发。通过深度对话与观点碰撞,我们尝试把握泡沫之下真正的潮流动向。


本期节目,我们邀请到真格基金管理合伙人戴雨森,十年的 AI 创业者季逸超 Peak, 从投资人和创业者的身份出发,聊聊商业与投资视角下 Sora 的意义。我们还探讨了 Sora 是不是所谓的 GPT 时刻?Sora 的突破对于创业公司意味着什么?对近期 AI 应用创业与投资有哪些独家观察?


OpenAI Sora 降世:背后的商业洞察与技术创新|此话当真 EP18



OpenAI Sora 降世:背后的商业洞察与技术创新|此话当真 EP18

OpenAI Sora 发布:

背后的商业洞察与技术创新


OpenAI Sora 降世:背后的商业洞察与技术创新|此话当真 EP18


时间轴


Sora 初印象

03:04  合乎逻辑、可延续:对世界模拟的重大突破

08:35  投资人的关注点:算力成本、训练数据、模拟效果

11:06  产品视角的关注点:视频生成速度、使用门槛

12:57  好莱坞 3D 渲染也得好几天:现阶段速度对于大模型意味着什么?


现阶段对于文生视频技术的高估与低估

15:49  被低估的 scale up 潜力和被高估的模型效果

18:19  只有理解世界底层规律,才能做出合理行为吗?

19:40  背锅理论:为什么我们不能相信 AI?

26:49  科技进步早期,从 0 到 1 的门槛很高

29:52  风险投资就是要投泡沫下有啤酒的公司

32:47  真正能够泛用的世界模拟器,可能不是 Sora


两种技术路径:Diffusion VS Autoregressive Transformer

33:36  Sora 是扩散模型的延续,而 VideoPoet 是自回归模型的延续

35:28  大模型「打死」小模型:通用模型统一了不同任务

36:34  基于泛用性打造更广阔生态


Sora 是不是视频生成的 ChatGPT 时刻?

37:56  如何定义 ChatGPT 时刻?

39:48  为什么说 Sora 不是视频生成的 ChatGPT 时刻


机遇与挑战

45:43  如何看待「套壳公司」?

47:11  不能只做「生鱼片型」的创业公司

48:40  做工具并不是赚不了钱

56:50  技术创新和需求洞察:AI 创业者的两板斧

01:00:56  AI Native 时代还没有形成特别好的商业模式

01:07:17  世界模拟器或改写人类对现实的定义与认知

01:08:07  对世界的高速模拟也是对生命的节约与拓展


相关阅读


关于 OpenAI Sora 的技术视角解读,欢迎扫码收听《硅谷一线 AI 研究员深度解读 OpenAI Sora(上):技术创新与局限,多模态融合与世界模型》。


OpenAI Sora 降世:背后的商业洞察与技术创新|此话当真 EP18


相关资料


Transformer 结构

Transformer 模型本质上是预训练语言模型,大都采用自监督学习 (Self-supervised learning) 的方式,在大量生语料上进行训练。也就是说,训练这些 Transformer 模型不需要人工标注数据。自回归模型是 Transformer 模型的一种。


自回归模型(Autoregressive Model)

自回归模型(Autoregressive Model),通常简称为 AR 模型,是一种用于时间序列分析和预测的统计模型。它基于时间序列自身的历史值来预测未来值,通过将当前时刻的观测值与前一时刻的观测值之间的关系进行建模。


扩散模型(Diffusion Models)

扩散模型能够实现从噪声(采样自简单的分布)生成目标数据样本。通过学习把图像逐步变成纯噪声的逆操作,扩散模型可以把任何一个纯噪声图像变成有意义的图像,从而完成图像生成。


VideoPoet

VideoPoet 是 Google 于 2023 年底发布的专注于视频生成的大语言模型,能够执行各种视频生成任务,包括文本到视频、图像到视频、视频风格化、 视频修复和扩展,以及视频转音频。和绝大多数视频领域模型不同,VideoPoet 并没有走 diffusion 的路线,而是沿着 transformer 架构开发,将多个视频生成功能集成到单个 LLM 中,证实了 transformer 在视频生成任务上的潜力。



你可以通过小宇宙、苹果 Podcast 、喜马拉雅收听我们。如果你对节目有任何的建议与期待,欢迎在留言区互动~


如果你有任何的创业想法或是有合作的想法,欢迎发邮件到 media@zhenfund.com !



OpenAI Sora 降世:背后的商业洞察与技术创新|此话当真 EP18


推荐阅读


OpenAI Sora 降世:背后的商业洞察与技术创新|此话当真 EP18
OpenAI Sora 降世:背后的商业洞察与技术创新|此话当真 EP18

原创文章,作者:ZhenFund,如若转载,请注明出处:https://www.agent-universe.cn/2024/02/17879.html

Like (0)
Previous 2024-02-22 00:37
Next 2024-02-23 22:39

相关推荐