ChatGPT:它不知道的会伤害我们
由 Noam Maital 和 Shlomo Maital 编写
在爱德温·阿伯特的1884年短篇小说《平面国》中,世界只有二维——平面。当一个美丽的三维球体出现时,平面国公民除了看到一个圆外,无法看到其余的形状,尽管它尽了最大的努力。
那么,政府是生活在平面世界吗?这是一个问题吗?
我们问ChatGPT,是否真的在它的“培训”中,没有接触到政府数据。
它回答说:“我没有接受过关于特定政府数据集、保密信息或专有数据库的直接培训。……我的回答可能并不总是反映最新的新闻或政府政策。因此,为了获取特定的与政府有关的信息,咨询官方来源或可信的权威是一个明智的选择。”
众所周知,ChatGPT在2021年结束了它的“培训”。这是由于启动该平台所需的资源有限。但是无法访问政府数据可能是更大的问题。ChatGPT只学习了它需要了解的有限部分,还有一个整个部门无法使用生成式AI工具。
为什么ChatGPT跳过了关键数据?很可能是因为政府机构不愿意将其数据库分享给涉及严重隐私问题的未知技术。另一个原因是实际情况是,访问需要登录或身份证明的数据库是不切实际的。
聊天生成预训练(Chat Generative Pre-Train)项目于2018年开始开发。最初,它训练了一个5GB的数据集,主要是为了学习语言(就像小孩子学习语言一样)。在2019年,它在Reddit上发布了训练超过3个赞的文章,共计40GB。OpenAI的GPT-4于3月14日发布,拥有1750亿个参数,并在570GB的数据集(网站、书籍和其他来源)上进行了训练。
令人印象深刻?与人类相比,并不是这样。科学家表示,人脑记忆容量为250万吉字节。云存储的数据已接近100万亿吉字节。ChatGPT 有很多需要学习的地方。但是,如果它接触到的关键数据受到限制,它怎么能够学习呢?随着技术竞赛的开展,每天都有技术巨头发布更具功能和更大的更新的训练数据集的新模型,这个问题可能很快就会得到解答。
尽管如此,炒作可能是有道理的——生成AI或基于LLM的应用程序潜在地将代替几乎任何垂直领域的基本任务——比如合同审查、基本代码开发、媒体和通信等。许多开发人员正在采用现有的基础算法并开发垂直化的应用程序,使用所谓的精细调整模型。到目前为止,我还没有看到任何证据表明这种技术正在渗透到政府科技领域。除非在现有的政府服务(公共交通、公共工程、停车场、联系中心等)中有精心计划的努力尝试这种新技术,否则公共机构可能再次发现自己落后于私营部门。这意味着什么?提供低质量的服务,与我们在非政府相关服务中所习惯的相比。
人工智能很快将成为我们大气层中的氧气——无处不在。何时呢?当技术融入我们的智能手机中时——比如谷歌搜索、地图、脸书等。然而大多数政府机构仍然处于平面世界中——无法感知或甚至构想第三维度的存在。是的,目前的人工智能革命存在大量的炒作,但与其他未能达到炒作所带来的预期效果的技术(如VR或加密货币)不同,公共机构在生成式人工智能方面不能滞后,因为它的采用在规模和重要性上将与互联网的普及相当。