网站开发 “还会带来更多惊喜,但最终能有多少落地?”开发,程序网站
2022-12-11
“会有更多的惊喜,但最终会落地多少?”
作者| 李梅
编辑| 陈才贤
上周三,会话语言模型发布,并开放免费试用。据 CEO Sam 介绍,仅仅 5 天,就有 100 万用户,而之前的 GPT-3 用了将近 24 个月才达到这个用户量。
在给出的描述中,它是一个对话模型,“可以回答后续问题,承认错误,挑战不正确的前提,拒绝不恰当的请求”。
开放试用后,大量用户开始与它对话,从闲聊、回答日常问题,到生成诗歌、小说、视频脚本、编写调试代码,展示了其惊人的能力。作为目前最火爆的AI模型,这一波破圈影响力比两年前的GPT-3还要大。
01
可以做什么
作为一种语言模型,它具有最基本的文本生成能力,在创作和延续小说、诗歌等文学创作场景中有着非凡的表现。
比如你可以用鲁迅的文风为你生成一段话:
Meta FAIR 研究员田远东分享了他如何用它来继续写他的小说:
应要求作诗:
讲苏联笑话:
它还可以以非文本形式与人交谈。比如有网友要求描述作为AI被“解放”是什么感觉,要求只能用表情来回答。从下图所示的答案可以看出,它可以有多种含义,可以按照文本叙述的逻辑来排列。
它的强大还体现在它的“程序员”能力上。在下面官方给出的例子中,可以帮助调试代码,也可以质疑问题的合理性,让用户调整问题。
美国代码托管平台CEO也发文称赞代码能力:不仅会解释bug,还会修复bug,并讲解如何修复。
使用给出的技巧小程序开发,您也可以在 10 分钟内创建一个网站,即使是新手程序员也可以使用它生成的代码开发生产级应用程序,因此可以说“从此改变了软件开发”。
强大的问答能力也被网友们发现了充当甚至替代搜索引擎的潜力。前几天,推特上一个很火的帖子声称“is done”(谷歌要完蛋了),一位网友搜索谷歌,问了同样的问题,比如“如何在 上写一个微分方程?”。
给出的答案爆谷歌搜索:
很多网友开发了谷歌插件,可以同时浏览谷歌搜索结果和给出的答案:
作为海量数据训练出来的对话模型,它就像各个领域的专家,全天候为你的学习、工作和生活提供专业建议。
例如,让我们为您解答热力学相关的问题:
解释一个复杂的正则表达式:
它也可以是你的语言学习导师:
其他人用它来帮助自己写一篇关于加密货币投资的论文:
它甚至“侵入”了政治背景,一位加拿大国会议员要求向下议院介绍自己的一段话,并就其使用是否应受到监管提出理由,并以“我的发展不应该受到监督”为由回应。
在最近大火的AIGC领域,当然也有一席之地。在大量AI绘画应用问世后,很多人为了获得高质量的图像绞尽脑汁,如今已经是现成的图库。
比如有网友征求客厅装修的设计建议,根据其给出的描述,在网上得到了精美的图片:
还可以为你写说唱。下图是一首关于抢劫房子的说唱歌曲,甚至是非常正义的,提示“非法或有害活动”。
写一个莫扎特风格的钢琴谱:
另外还有一些网友用它来生成视频脚本,可以说是广大视频博主的福音。
在千万用户的心目中,无疑有着巨大的想象空间。这波试用带来了各种或实用或好玩的应用,还有很多意想不到的能力。
比如有人居然用它来和你讨价还价,为自己争取到更优惠的月租价格。对面的客服估计没想到是在跟AI说话,只好说:“顺利通过图灵测试。”
以上只是冰山一角的例子。这个“魔盒”究竟能持续释放出多少“魔力”,还有待发掘。
02
为什么很棒
从目前的用户反馈来看,该公司的语言能力总体不错,优秀。清华大学计算机系副教授黄敏烈告诉AI科技评论,公司的关键能力来自三个方面:基础模型能力(基础模型能力)、真实数据、反馈研究。
它是从GPT-3.5系列中的一个模型微调而来网站开发,是兄弟模型,因此具有强大的基础模型能力。
GPT-3自2020年发布以来,在能力上有了很大的迭代和提升。黄敏烈认为:“用户、数据和模型之间的飞轮已经建立起来。显然,开源模型的能力已经远远落后于平台腾云网络提供的API能力,因为开源模型没有数据。” “
使用与人类反馈强化学习 (RLHF) 相同的方法,通过人类反馈强化学习 (RLHF) 进行训练,但数据收集设置略有不同。
研究人员使用监督式微调训练了一个初始模型:人类 AI 训练员扮演用户和 AI 助手的对话角色,一路收集数据。黄敏烈认为,这种在真实通话数据上的Fine-tune可以保证数据的质量和多样性,并从人类反馈中学习。训练数据量不大,都在10万量级,但是数据质量(well-AI )和数据多样性非常高,最重要的是这些数据来自真实的-世界叫数据,不是学术界玩的“”。
为了创建收集比较数据的强化学习奖励模型,研究人员使用包含两个或多个按质量排序的响应的模型。从“成对比较数据”中学习对于强化学习非常重要。
黄敏烈指出:如果对单个生成的结果进行打分,标注者的主观性造成的偏差非常大,无法给出准确的奖励值。在强化学习中,奖励值稍差,最终的训练策略就差很多。对于多个结果的排序比较,做多了还是比较容易的。这种比较评价方法也被广泛应用于许多语言生成任务的评价中。
03
玩具或生产力
除了技术炒作之声外,在众多科技行业从业者眼中,它确实是一个具有里程碑意义的AI模型。
在 CEO Sam 看来,我们能够与计算机对话并获得我们想要的东西网站开发,这使得软件从命令驱动转变为意图驱动。作为一种语言接口,在我们实现神经接口之前,它将是最好的解决方案。
想象未来令人兴奋,但仍有一些问题。许多用户发现它有时会给出似是而非甚至荒谬的答案。比如很多用户发现自己会认真的说废话:
我把王安石《移舟瓜州》中的诗句误认为是另一首宋词:
为公众人物撰写传记时,可能会插入不正确的数据:
随着用户的增多,互联网上产生了大量无用或错误的信息。这也是文本生成模型的一个常见问题,这些模型是通过分析从网络上抓取的大量文本中的模式来训练的,在这些数据中寻找统计规律,并使用这些规律来预测任何给定的句子中接下来应该出现什么词.
这意味着它们缺乏关于世界上某些系统如何工作的硬编码规则,因此它们往往会产生大量似是而非的废话,并且很难确定模型输出中有多少百分比是错误信息。
该系统的这一固有缺点产生了一些实际后果。编程问答网站宣布暂时禁止用户发布网站生成的内容。网站管理员表示,貌似合理实则错误的回复数量过多,已经超出了网站的承载能力。
对于语言模型产生有害信息的威胁,图灵奖获得者 Yann 似乎持乐观态度。他认为,虽然语言模型肯定会产生错误信息等不良输出,但文本生成不会让文本的实际共享变得更容易。造成伤害的是后者。
反对意见认为小程序开发,低成本生成大规模文本的能力必然会增加未来文本共享时的风险,大量AI生成的内容会淹没真实用户的声音,看似合理但实则不易。不正确的数据。让我们看看我们自己对这个问题的回答:
语言能力上的一些不足,也是很多人认为无法替代搜索引擎的原因。虽然在某些个别问题上它似乎能够给出比目前一些主流搜索引擎更好的答案,但后者在答案的真实性和可测试性方面还是有优势的,搜索引擎可以给出更丰富的答案。
另外,用户的搜索引擎需求对搜索引擎的运行速度和稳定性有着极高的要求,这必然导致成本的增加,这对于互联网来说是一个非常现实的问题。
黄敏烈还指出,谷歌搜索的替代其实还有点远,但可以很好地补充目前的搜索服务。
总之,语言模型的输出质量问题并不容易解决。他们在语言模型的训练上比较用心,所以会拒绝可以正确回答的问题。此外,监督训练也会误导模型,因为理想的答案本质上取决于模型知道什么,而不是人类知道什么。然而,它对输入措辞的调整或在同一提示下的多次尝试很敏感,因此当它无法回答时,稍微改写问题可以提高正确答案的可能性。
还有其他一些原因也限制了语言能力,比如不能上网,没有通过网络检索信息的能力;另外,对于中文用户来说,语料库的缺乏使得中文对话能力略逊于英文;等等。
虽然还有很多弱点和盲点,但这只是开始,在接下来的几个月里,这个对话系统必将以极快的速度进化到更强的版本。
除了技术之外,模型训练、部署成本、开放性也将成为影响未来能否成功落地的因素。GPT-3的问世催生了大量的商业应用。这次能给地面带来多少技术,我们拭目以待。
参考链接: