数据：在AI世界中，谁拥有它以及为什么重要

想象一下你与数字世界的日常互动。每当你刷信用卡，点击新闻文章，用健康跟踪器散步或下一餐订购时，你都在为一个庞大而错综复杂的数字挂毯做贡献。这个挂毯是由像你这样的无数互动编织而成，代表着我们社会的数据框架。

数据已经与我们的日常生活紧密相连，我们经常忽视我们每一秒钟为其做出的巨大贡献。然而，在AI越来越推动的世界中，理解这些数据的用途，谁控制它以及其各种应用是至关重要的。

世界的数据在哪里？

公共数据

开放源码或公共数据由政府机构和研究机构等实体机构提供，可供免费使用、共享和再利用。这些数据集通常不含个人数据，涵盖各种主题，从人口统计到健康，是数据科学和机器学习等领域的关键资源。然而，尽管具有价值，开源数据仅占全球数据景观的一小部分。

私人数据

私人数据占据了全球数据的大部分。它代表了您与数字平台的个人互动。这些可能是你在谷歌上的搜索模式、在Instagram上分享的照片或在Amazon上的购买记录。

当我们讨论私人数据时，我们也需要考虑专有数据。专有数据是指由公司、企业和个人拥有和保护的商品化信息。这些数据包括消费模式、供应链分析和独特的算法等元素。

当公司把个人数据当作自有财产时，就会引起争议，通常在未明确获得同意的情况下使用、出售或购买用户数据，我们将在下文进一步讨论此问题。

人工智能（AI）是数据的主要消费者，它根据其访问的信息来学习和进化。但像任何学习者一样，它对世界的理解取决于它的老师的质量，在这种情况下，是数据集。如果它学习的数据存在偏见，不完整或不具有代表性，AI的理解将存在缺陷，影响AI的培训和应用。

虽然像Chat-GPT和Stable Diffusion这样的工具因其似乎先进的功能而引起了人们的关注，但现实是，生成式AI的全部潜力受到可用公共数据训练的限制。虽然专有数据可以补充部分数据，但数据集通常只代表全球数据景观和现实的很小一部分。

因此，即使是最新的人工智能仍然存在偏见，这可能对社会产生深远的影响。最近一项关于人工智能图像模型的研究揭示了当人工智能只知道公共数据时会发生什么：它认为所有家政工人都是有色人种的女性，而所有首席执行官都是白人男性。甚至在没有NSFW过滤器的情况下，也不要试图生成一个“少女”的图像。

访问私人数据对于AI的进步可能具有改变性。它代表了一个信息库，可以潜在地加强AI对世界的理解：使其更加現實。

然而，访问私人数据仍然是一个挑战。有时候，某些实体可以购买、收集并将这些私人数据视为自有数据。然而，这样的做法引发了对用户隐私的严重争议。一些支持者认为，科技公司应该能够在没有明确同意的情况下使用私人数据来改进人工智能。

然而，在Facebook丑闻后的时代，监管机构和大众对数据滥用和处理越来越敏感。我们已经意识到数据的价值，并且个人数据的使用不能和不应该在没有真正所有者即日常人的参与和同意的情况下发生。

对于有抱负的数据科学家或机器学习工程师来说，高质量的数据越来越昂贵，越来越难以找到。

一个可能解决这个僵局的方案在于参与型人工智能模型，个人在AI系统的创造中扮演着积极的贡献者和拥有者的角色。这一模型始于数据所有权。作为我的数据的创造者，我拥有它并且有权决定它的销售或使用。

以所有权为基础，个体将有权将自己的数据贡献给与他们兴趣和价值观一致的特定 AI 项目。换取而来的，贡献者可以获得利润的一部分或由 AI 生成的收益，确保经济激励的一致性。

参与式人工智能的转变代表了权力动态的重大转变。它不仅仅是利润分享；它将个人从单纯的数据牛，可以随时被饲养和收割，转变为AI轨迹的知情参与者。这种模式将允许个人积极选择他们的数据如何使用以及AI模型被用途，也使他们成为AI进步的积极合作伙伴。

让人们更接近人工智能是建立更好技术的必要步骤。通过用集体智慧创建建造人工智能系统，这意味着它们在现实世界中的工作效果更好。参与式人工智能可以通过调整个人激励与技术进步来促进技术人员和个人的变革。

个人数据权利与技术进步之间的僵局不仅将塑造人工智能的未来，而且将影响我们社会的基本结构。转向一种新典范，在这种典范中，个人参与技术的创建是不容易的，但却是必须的转变。人工智能的社会和经济潜力太有价值了，不能因为数据管理问题而受到限制。