前言:我希望谨慎地做出判断
虽然媒体狂欢、大厂跟进,所有迹象都表明一个新时代正在到来。
但是在前文发布后,我和很多人进行了交流。给我印象最深刻的就是,有些朋友在表达感谢后,总会忐忑地追问一句——“你觉得ChatGPT方向能落地吗?”
他们中有面临职业抉择的打工人,有跃跃欲试的创业者,有二级市场的冲浪者,有一级市场态度谨慎的投资人。所有人都在岸边谨慎、克制地观望。所以,究竟能落地吗?如果能,是100%完全能吗?哪些方向可以哪些方向不可以?如果不可以,那么为什么不可以?
因为少年时的AI幻想成真感动感动是一回事,客观的现实又是另一回事。而且当我的建议会对其他人产生影响,这就愈加让我谨慎。
OK,前言就到这里,我将开始我的推理过程,向你展示我整个过程中的所思所想。
如果你对推理过程不感兴趣,可以直接看结论——“我相信他能够成功落地,并且将是一个时代的开始。”
但是我更希望你跟随我的思考过程,就像GPT模型中用到的思维链CoT技术一样,我们“think step by step”,当每个环节都清晰无误时,最终的答案也将更值得信任。
第一步:开始思考前,想清楚如何思考
我们需要更清晰地定义我们的问题,从我们自身的角度出发(打工人、创业者、投资者等)。并在随后围绕定义来确定我们要去加载哪些方面的知识,并基于这些知识做出符合利益和逻辑的推理。
我所寻求的答案是“AIGC这波狂潮能否落地”,那么:
01
首先,这是一门生意。而生意的本质就是价值交换,并在过程中积累剩余价值。所以他的首要原则一定是能跑通商业模式,赚到利润。
当然,生意要赚到钱是谁都知道的道理。AI绘画也能赚到钱啊,有人靠激励广告打平收益,有人拿到了融资,有人延伸出了提示语买卖。
02
是的,所以我还期望他具备足够宽度的赛道,能够支撑百花齐放。因为这样对于打工人来说,他进入这个方向才足够宽阔,拥有突破天花板的可能,对创业者来说市场的机会足够多,避免扎堆死在沙滩上,对于一级市场投资者来说有足够的种子进行选择试错,对于二级投资者来说,百花齐放的涌现才是这个赛道长久生长的推力。
在这里我们观察一下AI绘画,他的赛道是不是一眼就望到了尽头?你敢投入其中吗(此处假装忽略Diffusion技术后续的潜力)?
03
然后,找到新技术带来的增量市场。
我们要避免被媒体词语迷惑。什么是媒体词语?就是标题中的“AIGC”。
事实上这波狂潮中只有AI绘画背后的Diffusion和ChatGPT背后的GPT这两项技术产生了应用端的突破。但是AIGC词语一造出来,干涸的互联网终于迎来了久违的新概念,媒体迫不及待将他扶上王座,绘制出一张张行业全景图。
但事实上真正因为这两项技术发生影响的行业是哪些?受到影响的行业就一定存在增量机会吗?我搜集材料时一般刚开始的时候是不看投研式的报告的,很宽很全,但是好像知识从脑子流淌过去,看完什么也没留下。
特别做过汇报PPT的人应该知道,很多时候为了结构式美观,你会硬凑信息,比如这个产业链只有2条不好看呀,我凑够3个来个金字塔布局。这种信息会误导思维框架的的建立,我一般是建立了体系化认知再去看报告来补充参考的。
OpenAI CEO对资本造词“生成式AI”的嘲讽
05
紧接着,让我们首先瞄准核心的应用场景,暂时忽略上下游布局。
当一个地方发现金子,马上就会有为淘金者服务的餐馆、旅馆、劳保店出现,但这这一切的前提在于必须能发现金子。核心应用场景就是这波浪潮中的金子,只有找到在消费端能够跑通模式的场景,才会关联延伸出相应的上下游产业。因此在这个问题的思考过程中,上下游产业是不重要的,我们不需要投注任何精力去关注。
06
最后,让我们基于如上推理,重新构筑对这个问题的定义:“当前是否有足够多的受到两个新技术影响且产生增量机会的核心场景能够跑通生意模式,获取盈利”。当我们收集的知识满足这些条件,我们就认为答案是“是”。推导顺序如下图:
第二步:开始组装知识框架
在有了思考的方向后,我们需要构造知识框架,哪些重要、哪些不重要、哪些要素之间互相关联、影响、先后顺序是什么等等。
首先,搞钱是最重要的,即核心场景,第一个要做的就是盘点应用场景,客观评估其商业模式及可行性。
其次,场景不是独立存在的,有大量因素影响制约。其中影响最大的是技术,其次可能是政策、道德等。
最后,我们在知识收集过程中,必定面临一些困难。例如自身的知识洼地无法跨越,或是元素过多无法穷尽,我们需要应用一些抽象、指代的方法来跨过这些障碍。
基于上述原则,形成我们的收集框架:
优先梳理商业部分,并在遇到知识洼地时采用抽象要素、同理推断、指代推断等方法。
技术现状决定当前生意是否成立,技术潜力决定生意的上限天花板。作为重要支撑因素进行分析。
限制因素如道德、政策、版权等,对主干不构成影响,放到最次优先级大概看看就行,对行业未来可能的限制稍作了解。导图见下方:
对了,补充一下接下来这篇文章将只分析GPT是否能够落地,不涉及AI绘画,这是因为:
1)我做不到
AI绘画的材料我收集了,但是还未整理,后续会有一篇《AI产品经理视角下的AI绘画全解析》。我要等那篇文章写完了,思路才会清晰,没想清楚之前我就不乱说了。
2)其实也没必要
两项技术虽然都具备突破性,但目前ChatGPT的延伸方向、变革程度,都是远远高于Diffusion的,所以如果ChatGPT能论证成功,不用等AI绘画,我们也可以推出标题中的答案。
第三步(1):基于框架进行知识填充——商业篇
我们先说盈利模式和成本控制两部分,然后带着相关认知去盘点场景。
1. 盈利模式
互联网主流盈利模式无非三种:
1)广告/流量模式
通过免费产品吸引用户使用,促使用户投注大量时长/频率,再从中切割广告流量从而盈利。在目前短视频、中长视频、游戏、小说的围剿下,我不看好ChatGPT所创新的应用能够抢夺足够份额的时长。边角料的时长空间或许可以,但上限不够大。
而且一旦涉及时长争夺,我们所描述的肯定是C端娱乐应用。对于有野心的玩家来说,是很难接受让广告突破用户体验的。
不过小规模应用其实可以考虑,特别对于独立开发者来说,激励广告变现是一个很好的方式,虽然我手里没有数据,但AI绘画在过去的半年内已经证明了可以实现收益打正。
AI绘画暂时形成一条应用-消费的小市场,但上限很低
不过我感觉广告模式应该是最不适配的,除非技术再进行突破,或出现意料外的杀手应用。例如一个让你愿意每天投入半小时进行聊天,并且他放广告你还不反感的虚拟人……这有可能吗?
2)商品模式
商品模式是最传统的,一手交钱一手交货。只是这种模式下,交易是一次性的。2B端的定制开发服务,游戏充值都可以用这种模式概括——当然也包括卖实体商品。
但是商品模式最需要的是“复购动力/频率”,游戏充值有沉浸心流、社交货币、排行攀比等心理方法来推动,实体商品则来自现实生活的复杂需求。
Chat的应用延伸,如果采用商品模式变现,需要考虑几点:
B端会更明确一些,商品付费基于明确价值。例如49.9元1000次SEO文案生成/社媒生成/广告语生成。而C端提供的价值不那么商业实际,需要考虑其他动力来刺激复购能想到的替代。例如宅男手办、以及明星周边/打榜。
3)订阅模式
用户周期性支付费用,以获取某种服务、特权、功能。这种模式最重要的在于,花钱订阅的那个东西对用户是否具备“持续价值”。
2B方向的产品,可以不用讨论,订阅模式已经逐步替代商品模式成为最优解。我们慢慢看到不管是软件服务的定制开发,还是本地应用软件的license机制越来越少,取而代之的是订阅模式。毕竟订阅模式能带来更健康稳定的现金流,这已经是非常大的优势了。
而2C方向的产品,还充满不确定性。比较经典的如视频会员VIP所代表的娱乐价值,交友APP代表的社会尊重价值,GTD代表的生产力价值,2C向的GPT产品能否像他们一样创造足够的“持续价值”,还需要先行者为我们踩坑。
上述三种盈利模式简单了解即可,他们之间不是非此即彼的。例如百度云盘限速下载,你可以用订阅来做,也可以用商品来做,严格来说没有那么明确的界限,纯粹看那种盈利方式在商业测算上能带来更大的利润。
但综合来看,商品模式和订阅模式和ChatGPT的延伸应用会更为匹配。
2. 成本控制
成本可以分为三块:
1)技术成本
GPT3.0的付费接口是3700个字/元(经过换算),这是最明确的成本线。除非等几个月成本下降或国内大厂跟进做出服务开放,否则这个成本线会持续一段时间。
此外搭建相关服务、开发产品并维护也会产生费用,根据落地的形式不同。
2)运营成本
人力费用一般而言是大头。即使排除算法角色(是的,只做应用层甚至可以不需要算法,所以这波技术浪潮对算法同学而言是非利好),那么也至少需要工程方向、前后端、产品设计等角色。
如果你是2B市场,还至少需要配备销售团队。整体的上限浮动空间非常大,从0人(独立开发者)到几十人都有可能。
另外还需要考虑办公场地、器材购买、HR/行政等费用,当然你可以选择全体远程协作+服务外包等多种方式去降低。上下浮动空间也比较大。
3)增长成本
2B的增长成本来自PR费用,参会费用,以及销售费用。部分to 小B的例如给电商从业者的还会涉及广告费用。2C就更不用说了,除非运气好裂变了,不然买量是离不开的话题。
目前比较好的是这个方向比较新,竞价价格会相对低。不过也存在蹭流量现象,例如完全没有相关要素的社交APP,也会投放含有“虚拟聊天”相关的素材。
2C还有一个利好就是一般做娱乐类应用,社交的买量价格起码不像电商和金融那么恐怖。
带着上述这些前置信息,我们会发现,考虑场景的生意模式的时候,我们不可能只按3700字/元来作为底线测算。整体的成本线可能要压到2000字甚至1000字/元,才能抹平其他成本。
即我们需要做到,GPT每生成1000个字,产品能从用户身上赚到1元。这样营收与成本线3700字/元之间的差额就是我们可累积的利润。
3. 场景盘点
带着对盈利模式和成本线的简单了解,我们进入场景盘点。
在这一部分我们要注意,我们没有精力、也不可能将市面上全部的应用罗列。因此只能基于技术线应用可能进行分类聚合,然后基于各类别的关键要素进行分析。
4. 文本创作类
这是目前最火爆的一个分类。从文本长度来说,可以分为短文本、长文本、超长文本。从专业角度,可以分为法律、心理咨询、教育、建筑、小说、公文等。再细致一点可以列出SEO文案、社媒内容、广告创意、邮件写作、公文信函、简历修改等等等等。
我们不可能把全部的可能组合起来,其结果将超出我们的分析能力范围。
我们只抓两个关键要素:怎么赚钱,技术能否支撑。
在这里,举两个例子:
SEO文章生成:在AIGC之前,人工手写的SEO稿是有明确标价的,大约在千字10元~50元不等,个别优质的可以到100元。我们取一个最低值,就是千字/10元,离我们前文硬推的千字/1元之间足足有10倍的价值差额。
电商运营提效:我是一名在西班牙的电商从业者,原本我雇佣了一名本地运营,帮助我维护西语系国家的站点。现在通过AI的能力,仍然是这名运营,可以在多个不同语系,数十个细分市场中维护站点。那么这中间的差额就来自1名运营人员和N名运营人员之间。
我们会发现,他的模式本质上是AI在内容创作这项劳动上,制造了剪刀差。只要这场浪潮没有完全结束,内容创作的社会必要劳动时间没有完全进入另一个层面,剩余价值就会自动从动荡的剪刀差中掉落。
而在技术层面而言,目前的技术支撑程度,简单来说就是:文本越长死的越快,结构越复杂死的越快,但短文本和通用内容方面已经是如鱼得水,非常成熟。
不过目前已经有人在中长文本方向进行努力,他的推理能力也在加强,所以技术的突破和垂直领域适应是一个非常值得期待的方向。
综上,我认为,文本生成领域是一个完全的增量市场。并且随着技术的进一步提升,他的规模更逐步扩大。补充:其实还有一些小分支领域,例如文本纠错、实时翻译等,但是都不如文本生成夸张,所以就略过了。
5. 代码生成/纠错/Sql/语言转换等等等等
这是目前海外第二火爆的分类,独立开发者很多。不过分析到这里我遇到一个尴尬的地方。我并不是程序员,无法设身处地去设想是否愿意为相关的服务付费。
哈哈,所以我把问题转手给我的程序媛夫人,让她在旁边静静思考一下。我们先从这个领域的技术情况开始分析。
首先,不要被媒体稿迷惑。就目前而言,GPT无法替代程序员。他的代码生成能力,在常规问题上能够正确,但是一旦你换一些变种,他就会给出看似正确其实离了大谱的答案。
这项技术的应用前景,更多在于代码辅助写作,例如快速生成一个简单模块,对代码进行自动Bug检查,生成Sql语句、代码解释等等。但是都需要人工二次review,他能够帮助你的主要在于快速的检索、简单代码的快速写作、自动纠错等辅助功能。
并且这方面和文本生成领域不太像,技术角度产出的结果质量还不够高,不太能形成巨大的剪刀差。但目前的技术已经实现了一定的效率提升,以及门槛降低。效率提升:有助于程序员们coding环节加快速度。门槛降低:门外汉已经可以通过开发工具+GPT实现部分专业领域的简单设计(例如Unity+GPT做游戏)。
好了,回到商业价值上,一段时间的思考后,程序媛老婆给出了坚定的答复——“我们花这个钱干什么,当然自己做一个啊。”我:“0.0???”
我有点不太相信,但是找了一圈这个领域的投融资情况,找不到太多的例子,只看到OpenAI有投资消息:一家代码编辑,一家开发工具。但再往下细探就找不到任何相关消息了。
好吧,我只能认为暂时而言,这方面的商业前景可能不太乐观。2C侧暂时相信老婆大人的判断,应该比较难创收;而2B侧需要企业判定对自身内部效率有帮助。而众所周知,提效类的2B服务,往往比不过营销类这种能直接创收的服务……
综上,这是一个完全的增量市场,但是商业化机会似乎不太美妙。比起有一个成熟公司在这里杀出来,我更期待独立开发者或者是大厂做出的自用工具然后开源。毕竟——“当然是自己做一个啊”真的是程序员独有的浪漫了吧。
6. Chatbot方向
在说Chatbot方向前,我们先提炼新技术对这个领域的影响,然后带着这些认知去做场景盘点。
简单而言,ChatGPT的技术让对话更自然了。这里的自然包括纯闲聊部分,也包括QA甚至Task任务。一个能够联系上下文,并对知识进行整合推理的Chatbot,对以往的机器人会是一种颠覆式的升级,能够跨越以往用户体验的上限。
整体上,我将Chatbot分为以下方向:
1)客服类
这部分包括目前各个主流平台自研的机器人或者提供相关服务的客服机器人企业。
从技术上来看,有非常大的变化,甚至推动技术栈重构。但是从商业上来看,有可能影响寥寥。
客服bot的市场中,仍然有一些竞争者,他不止ChatGPT,甚至连BERT也没有应用,仍然是相当老旧的一套系统。而他们既然仍然在这个市场保有份额,自然有其原因——某些时候,2B的市场中,技术不是第一竞争力,服务、渠道、价格都会比技术重要。
而新一代语言模型技术的出现,不过是给这个市场增加了一点扰动。已经买了产品的,因为迁移成本,渠道关系不一定马上会切换。技术服务商可能会紧急跟进尝试,但也不妨碍部分竞争者慢悠悠甚至毫不在意。
并且一个关键点在于,GPT技术除非自行部署,否则意味着自身的核心能力转为依托于大厂。这是不是客服机器人公司所能接受的,还存在疑问。最后ChatGPT模式下,算力成本以及时延会变得难以忽视,会给这个方向带来一些阴影。
综上,我觉得客服方向,属于旧技术盘踞的存量市场。技术蝶变在部分公司会狂风暴雨(但落地会很谨慎),在部分公司可能进展较慢或无动于衷。
2)娱乐类
娱乐类即只提供情感/娱乐价值的方向,上篇文章提及的APP Glow 是一个典型例子。对于这个方向来说,技术上让情感价值的提供成为现实(AI更自然了,没那么智障了),但是非常需要结合情感场景的设计。
而脱离场景设计的结果,最典型的就是ChatGPT本身。ChatGPT当时在11月30日发布后,用户们是情不知所起,一往而深,再而衰,三而竭,仅仅一周左右的时间就销声匿迹。因为没有任何一个人的需求是“聊天”,以及看一个AI“卖弄聪明”。
在上篇文章中,我大概说了一些关于娱乐类Chatbot的一些想法,这里不再重复阐述这种方案的细节描述,没看过的朋友可以移步此链接:轻松小补充:GTP APP全景地图+虚拟人构造想法+prompt模式详解,看第二部分就行。
我们重点说说商业上的问题,先来回顾下上面提及的关键点:
其中成本线问题需要通过产品设计绕开,不能让用户的行为时间大量投注在闲聊中,否则随着文字互动量的上升,成本将急剧飙升。
一种可能的解决的方式是以闲聊交互为核心行动线,穿插剧本设计、剧情推动、用户自主人设构建等玩法,来减少算力损耗——总之就是不要只能聊天,撑不住。
还有一种比较骚的玩法,可能是在Prompt层面对模型进行约束,例如下面这张图,ChatGPT会强制在问题中引入一段前缀,以此限制答案长度节约算力。
而持续价值和复购动力可以合并来说,因为这两种收费模式其实很容易互相摇摆。一个比较好玩的做法可能是构造“角色”的获取-使用-厌倦-再获取这种闭环。这套模式已经被诸多集卡类游戏深度验证过,也成功从我手中掏走了不少钱(该死的原神!!)。
综上,我认为娱乐类BOT是一个完全的增量市场,技术的突破成为这个方向的关键要素。但是市场强依赖对用户需求的打磨和设计,到底应该怎么做,还需要摸索,目前大家都在尝试。
3)工具类(助手类)
工具类包括语音音箱、手机语音助手、车载语音助手等。从技术上来看,我觉得非常大的问题在于“实时性”,我从圈内朋友获取的信息是,目前接口调用的时延在1S以上(不知道是不是因为服务器距离导致)。这种延迟很难说可以应用在上述场景,他的用户体验将十分糟糕。
除了这个缺陷以外,技术上对工具类BOT的体验提升将是非常大的帮助(上面说过了不再重复一遍了)。但从商业上来看,我认为这也是一个旧市场。
或许你会认为,可能有一家创业公司,依赖全新、更好体验的语音助手杀出重围,挤占原有语音助手的空间。但需要我们注意的是,这些助手虽然是软件,实际上却非常依赖自身的硬件渠道——小爱依托小米,Siri依托苹果,车载助手则在各个汽车品牌之间互相割裂。我感觉这个领域应该是产生不了新蛋糕的。
不过比较有意思的是,虽然看起来和客服类一样是个存量市场,但工具类Chatbot会热衷于拥抱这些新技术,因为这将有助于提升他们的用户体验,从而推动他们硬件渠道的增长。综上,我认为工具类方向半旧不旧,没有增量,但更乐于拥抱新技术。
4)专业类
专业类指需要独特领域知识的Chatbot,例如法律咨询机器人、投顾机器人、心理咨询机器人等。
这类机器人有几个特点:第一,专业要求高,需要专业人员调教验证;第二,结果输出要求稳定/高质量,需要为结果负责;第三,部分场景使用频率偏低(例如法律Chatbot,普通人一辈子用不到几次);第四,极度需求高质量专业数据。
从技术角度来说,GPT给他们带来的升级效应较小。因为这个领域最困难的并不是交互过程、理解过程的升级,他面临的困难始终来自专业数据,低频场景。不知道GPT是否可能挂载额外的知识库,而不需要专业数据在预训练环节重新接入。如果可以的话,应该有助于提升用户体验的上限。目前看到一个法律领域的BOT,如下图:
在我一位律师朋友看来虽然还会有些错误,但已经相当自然通顺,相较过去基于旧技术的专业机器人已经有一些提升。综合来看,对当前体验没有颠覆性升级,场景低频难以变现。
一条可靠的路径可能是先做给专业人员的辅助工具,然后在使用中积累数据优化再开放。我认为他暂时是一个有一点潜力的增量市场,需要结合技术演进和专业落地尝试再细看。补充:专业领域太多了,非常需要行业经验逐一盘点,所以这段判断仅供参考,存在较高错误可能。
7. 游戏方向
头部的应用方向基本就是Chatbot、文本生成、代码这三个领域,而游戏其实暂时我看不到太多优秀的例子。这是我目前唯一找到的case:AI地下城,文字交互类游戏。但是我毕竟是20年+的游戏玩家,为爱发电也要强行聊一波:
1)NPC流水线
NPC制作的几个制约因素都被本轮技术升级覆盖。包括NPC背景故事的生成(短文本),NPC自由对话(基于人设的对话),NPC头像、3D建模生成(头像比较容易,3D建模有点困难,但NPC外貌重要性弱一些),NPC好感度机制等。其中自由对话模块已有现成的case,一名玩家为《骑马与砍杀2》制作了一段实验性demo,见下图:
询问NPC村民能否铸剑,得到肯定回复并询问预算及材料
2)任务流水线
任务制作的影响范围相对较小,因为他会涉及到数值设计、关卡设计、上下游依赖任务等问题。但在单环任务,一次性任务上,新技术将在任务文本生成,任务选项等方面起到帮助。这方面我勉强看到一个例子,不过他是剧情式游戏,仅供参考。
中间那个>You gogogo 就是我的命令,可惜写这篇文章太累了,投不进心思玩
3)交互模式
传统的游戏交互方式是界面(传统键鼠或触控)、体感(Switch或VR),奇葩一点的可能会加入声音触控(音调、音量、或者少数ASR识别关键词)。
而GPT可以让自然语言交互成为可能,即延伸出来的文本交互&语音交互会相当成熟。
但是并不是说更新的交互方式就一定更好,大家可以借鉴上一轮Chatbot的发展历史来看。在Chatbot刚出的时候,极度追求极端的VUI交互(语音交互),但发展到后面都妥协了,采用VUI+GUI(图形界面交互)的方式。这是因为语音或文本,天然是有其缺陷的,需要根据实际需求选择组装。
具体内容可以参见我2017年的一篇产出,现在回过头看有一些更新的理解,不过我只剩个PDF了修改不了,就将就着看一看吧哈哈。
From《VUI设计方法分享》
不过游戏方向是非常特殊的,技术能够为他带来改变,但他的成功绝不会只靠技术。事实上,全智能NPC、全智能任务只是一种新颖的设计。真正一款游戏好不好玩,能不能打动人心,还有非常多题外的因素。
另外技术是否还能应用到其他领域呢?例如NPC决策逻辑,世界背景构建,新语言创造等——我不知道,但对技术永远抱有期待。希望绿洲早日来临!为了部落,waaaaagh!
最后收尾总结一下:游戏领域是一个100%的旧市场,但又和客服机器人、工具机器人不一样,新技术可能让这个领域出现颠覆性的新玩家。补充:或许MUD类型游戏会重新闪亮出场?这种类型可以甩开音乐、UI、建模等诸多成本,最先吃到这波技术升级的红利。利用好玩家们对新技术的新鲜感应该会有一波流量,但后续留存就难说了。
8. 是否还有其他方向?
在上文列举的文本生成、Chatbot、代码生成,其实是ChatGPT演示中直观带给我们的灵感,只是在落地过程中,随着参赛者的选择,逐步延伸向了各自的细分方向。而游戏方向则是典型的,GPT技术+其他行业逻辑构造出的延伸方向。因此我们可以想象类似游戏这样的扩展行业还有很多,只要他的行业中有大量关于文本的应用——哪个行业不是呢?
例如教育行业,能不能用GPT梳理、查找关联知识点?金融行业,能不能用GPT阅读会计报告、合同文件进行分析?我不知道哈哈,暂时没有case,等待新玩家们涌现。
第三步(2)基于框架进行知识填充——技术篇
技术篇非常简单,我们不再科普技术原理,技术原理已经在前文万字长文:AI产品经理视角的ChatGPT全解析中大篇幅讲过了。我们重新基于应用角度,梳理当前技术的现状及潜力。现状决定短期内哪些能做哪些不能做,潜力决定未来横向、纵向的扩展可能。大家可以用这些认知来扫描任何新出现的应用场景。
1. 技术现状
1)结果不稳定,需要review需要Review,就意味着大部分场景不能脱离人,只能辅助人。除非你在做一些完全不在乎质只在乎量的市场,例如营销号、SEO、刷评论。
2)推理能力弱,容易推出看似正确的错误答案结构复杂、逻辑复杂的场景无法适配,例如长篇小说容易颠三倒四,教育应用也要谨慎用在理工科方向的问题上。
3)知识更新困难,成本巨大知识无法通过Prompt获取,源头只来自LLM中的1750亿参数,更新一次知识成本高,速度慢。所以无法适配需要紧跟时事的场景——但这不意味着不能用来摘要新闻,毕竟天底下无新鲜事。
4)延迟较高,实时场景不适配截止昨天2月3日我已知的信息是接口延迟在1~2S(可能有误),所以暂时语音助手这种实时响应要求高的会不适配。但我觉得这个问题应该很快会被解决,工程问题无法求解是没看到蛋糕,只要看到蛋糕性能迭代是非常快的,AI的演进历史本身就是一部效率迭代的历史。
5)垂直领域表现未达最佳这里的垂直领域包含两种解释,一种是技术侧的垂直领域,例如自然语言理解类的任务,暂时仍是BERT更优。另一种是行业侧的垂直领域,例如法律、心理、金融等。我猜想一个原因可能来自原始训练数据中缺乏高质量的文本数据。
From《Language Models are Few-Shot Learners》模型预训练训练中所用到的数据集
6)可挂载其他模块,但目前没有标准方法目前看到的一些方式是,用GPT作为输入端,再用其他工具作为逻辑端,例如GPT+unity,GPT+Wolfram | Alpha。
一方面是这些挂载目前都是自发行动的,后续有可能会出现标准规范的GPT引用方式,甚至可能大部分应用会以“本店支持GPT-3”做为荣誉标识。另一方面我还没看到更深层次、更触碰GPT底层逻辑的实践。
现在的实践本质上和ifttt有点像,是两个应用的解耦式联合。是否能实现更深层次的呢?例如我们前面说的知识更新困难,有办法通过挂载一个小规模的实时知识库来实现吗?不知道,等待玩家们的表现。
2. 技术潜力
1)更通用说白了就是从Text-Text到Text-everything。GPT已经证明了在NLP领域的统治力,而图像、语音、视频等多模态,其实只需要Text-多模块的若干转译通路。我没有针对性地搜集信息,但至少Text-image的通路是现成、成熟的。Stable Diffusion中一个关键技术就是OpenAI所提供的CLIP(Contrastive Language-Image Pre-Training)。
2)更便宜经过商业模式部分的分析,我们可以相信这个方向的应用潜力是巨大的。当应用可行时,配套的上下游产业链会快速出现,包括芯片、算法平台、专属云服务等等。不过前面就说了,上下游产业链不做分析,整个结果是不证自明的。我们只需要知道,按照逻辑推理,更便宜是100%会出现的就可以。
3)更强大一方面的提升来自于多种GPT方向大模型的尝试落地。目前大厂们哪怕在短时间内会与OpenAI展开合作,但除了微软以外,应该都无法忍受上游关键技术握在其他人手里。因此可预见的GPT的最上游会出现复数玩家来一起尝试。
另一方面的提升来自模型结构的改进,2023年学术界的关于这方面的paper肯定会爆炸的。唯一限制他们的就是学术界如何绕开大模型训练成本这一难关。应该会形成企业-学术这样的合作通道。最后一方面来自各种垂直方向的适配调优,前面在分析商业模式盘点场景的时候已经举了很多例子了。
第三步(3)基于框架进行知识填充——限制篇
在国内其实限制部分不用太快关注。毕竟我们现在是全面落后的状态,整体的趋势肯定是先追赶,再监管。反而海外因为OpenAI一枝独秀,对相关方面的限制其实已经初现波澜。下面大概展开说说:
1. 道德方面
1)有害言论。训练数据质量+模型不可控性导致AI的回答像一个定时炸弹。目前的优化方式一方面是基于RLFH技术进行针对模型的道德训练,另一方面是在答案输入输出时加装敏感过滤器。
2)教育危机有一些美国大学封禁ChatGPT之类的新闻,事实上这不是一个噱头。尽管模型的有很多缺点,但至少在社科人文类上表现还不错。这个情况有点像当初的“以图搜题”,后续可能会有政策要求对这方面进行限制。
3)内容泛滥这个问题是在AI绘画领域、虚拟人领域都出现过的。抖音、小红书等平台,已经在限制基于AI绘画的账号。视频号之前也禁止完全虚拟人直播,只允许中之人类虚拟人直播(现在还限不限不清楚)。本质上这是每个内容社区都会做的事情,内容质量和内容数量之间,永远会倾向质量。
但是对AI生成内容的检测,现在还没有太好的方法。anti-spam这个领域如果不成功,以后的信息搜集将让人绝望。感觉都可以看到营销号改名机器号的那一天。
某平台账号限制说明
2. 技术代差/封锁
1)技术代差在这方面我不是专家。但看大厂PR稿,全是乐观,看技术大神的言论,全是焦虑,我也看不懂了。我还是相信大神们多一些,但也对国内跟进速度抱有期待。毕竟上一轮AlphaGo浪潮所代表的落后,最后也迎头赶上了。
2)技术封锁DDDD。
3. 政策、版权
有一个法规:《互联网信息服务算法推荐管理规定》,我从里面找到了一些两句相关的话,贴给大家参考一下:“发现未作显著标识的算法生成合成信息的,应当作出显著标识后,方可继续传输”“不得生成合成虚假新闻信息”而版权方面目前没有相关消息出来,炒得最多的还是AI绘画领域,大家搜一搜就有新闻了,我就不多说。
重点说说GPT的版权问题。先跟我看下面这张图:
模型训练的语言分布,中文5%左右
在ChatGPT的体验中,我们并没有太发现他有摘抄、洗稿的痕迹。是否有一种可能是,他的原始素材中,中文占比仅为5%?
如果国内基于中文语料重新训练属于我们的GPT后,是否有导致AI直接抄袭语料中的答案,或者稍微洗稿后吐出?
这个答案只能等待国内的GPT模型落地我们才能看到结论了。但如果基于这种猜测,中文高质量语料会变得炙手可热,比如知乎社区以及百度百科,另外人工标注训练也可能会迎来一波春天。
第四步:推理出最终答案
经过上面的知识填充,我们最终得到这样一张图:
我们接下来就要基于我们上述所有收集到的知识进行判断。而我的判断结果也很简单,就是开篇那个——“我相信他能够成功落地,并且将是一个时代的开始”。当然,会附带一些小补充、小限制:小心旧技术市场,小心媒体词语的迷惑,关注技术的更新等等。
是的,这一步就这么简单哈哈。事实上做决策最难的永远是信息收集,当拥有足够信息时,答案近在眼前——是的我说的就是拉普拉斯妖。我相信能看到这里的朋友,应该心中也有自己的那份判断了。
本文由@马丁的面包屑 原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自 Unsplash,基于 CC0 协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
来源:https://www.woshipm.com/operate/5756745.html
本站部分图文来源于网络,如有侵权请联系删除。