在分析技术方面的创新:通过GenAI提升数据质量
数据分析近年来已成为商业成功的关键驱动因素。将大数据集转化为可行动的见解的能力可能是成功营销活动和错失机会之间的区别所在。然而,数据质量仍然是一个主要挑战:如果输入模型的数据缺乏质量/一致性,那么得到的输出也会质量低下。这正如流行的谚语所言:“垃圾进,垃圾出”。
虽然人工智能经常处于聚光灯下,但对于强大的数据基础和有效的数据策略的关注经常被忽略。在本文中,我们将探讨人工智能如何通过以下方式直接改善这些基础:
- 自动化数据协调
- 动态标签和分类
- 生成合成数据
与处理有缺陷的数据不同,我们使用GenAI从一开始就提升数据质量。这种方法也为以后更有效的AI应用铺平了道路。
(生成式)人工智能的崛起
许多行业正因为人工智能技术而发生重大变化。例如,在营销领域,人工智能帮助组织从庞大的数据集中提取可操作的见解,导致定向广告活动和更好的客户参与。根据Gartner的骤增循环,人工智能的GenAI正处于高峰期,展示其转变分析能力的潜力。
尽管人工智能有潜力,但输入数据的质量仍然至关重要。不准确或不完整的数据可能会扭曲结果并削弱人工智能驱动的创举,而这就强调了清洁数据的需求。对于市场营销人员和数字创新者来说,处理来自各种来源的不一致数据可能是释放人工智能潜力的主要障碍。
翻转范式:使用人工智能提升数据质量
如果我们可以改变我们对数据质量的看法呢?我们可以不再把它看作使用AI的先决条件,而是利用AI来提高数据质量本身。通过利用GenAI,我们可以简化和自动化数据清理过程。
清洁数据以便使用人工智能?通过GenAI清洁数据!
三种使用 GenAI 进行更好数据处理的方法
改进数据质量可以使应用机器学习和人工智能到分析项目和解答业务问题变得更容易。以下是使用ChatGPT²增强数据基础的三种方法:
#1 协调:通过人工智能使数据更加清洁
在分析中的一个核心挑战是保持数据的质量和完整性。算法可以利用诸如异常值和异常检测等技术自动清洁和预处理数据。GenAI 现在可以通过识别和修复不一致性来直接帮助数据映射和清洁。
例如,一个从不同来源聚合市场数据的医疗组织可能会面临命名约定不一致的问题。
GenAI可以自动检测和纠正这些不一致之处,从而产生一个干净可靠的映射数据集。 这不仅可以节省分析师大量手动数据检查的时间,而且还可以消除传统方法中使用复杂正则表达式的必要性。
#2 标签:启用先前无法使用的数据
组织通常拥有大量未被利用的数据,主要是由于质量低或缺乏标签。GenAI 可以帮助通过自动聚类相似的数据点并从未标记的数据中推断标签,从以前无法使用的来源中获得有价值的见解。
自然语言处理(NLP)是一个例子,传统方法可能难以处理复杂的文本数据。例如,从临床行业文章中提取数值细节可能会产生误导,如果这些数字并不指代实际数量。GenAI提示能有效应对这些挑战。
在这种情况下,结果是直接但准确的。 数字提取只是标记可以强大的一个示例。 显然,GenAI是从文本数据中提取精确细节或分类的强大工具。
#3 生成:使用LLMs生成样本数据
GenAI也可以生成合成数据来训练人工智能模型。大型语言模型(LLMs)可以产生逼真的样本数据,有助于解决数据稀缺问题,特别是在数据可用性有限的领域。
例如,一家针对小众市场开发药物的制药公司可以使用LLMs来创建合成患者档案、医疗史和治疗结果。这种方法不仅增强了数据多样性,而且减轻了与敏感患者数据相关的隐私问题。
这种方法不仅增加了数据多样性,还解决了与分享敏感患者信息相关的隐私问题。它还可以扩展到其他应用程序,例如针对营销活动的目标受众、创建欺诈检测示例等。
通过API自动化数据质量增强
为充分发挥GenAI提高数据质量的潜力,将这项技术以自动化和无缝的方式整合起来是至关重要的。手动复制数据集到提示中并处理响应是不切实际的。
使用API(如ChatGPT的API)在编码环境中可以通过将AI驱动的数据质量增强直接融入工作流程来简化这个过程。有关在Colab或Databricks中使用OpenAI的API的指导,请参考我的另一篇文章。这些自动化请求的结果可以直接写回数据存储。
自动和声,标签和数据生成
通过建立数据管道,组织可以在新数据进入其系统时利用GenAI。例如,当新的数据集进入时,API可以自动应用数据协调算法或识别模式以推断标签。这消除了手动数据清理和预处理的需求,使数据工程师可以集中精力进行更有价值的任务。尽管GenAI表现出巨大的潜力,但重要的是要认识到使用公共API可能涉及的数据隐私问题。
将API集成到数据流水线中,使您能够在培训笔记本中直接生成多样化和逼真的数据集。API还可以创建合成数据,填补现有数据集中的空白,支持更健壮的AI模型开发。这种自动化数据生成不仅加快了研究速度,还减少了隐私问题的担忧。
结论
将GenAI API整合到数据质量工作流中,利用它的强大功能自动进行数据清洗、标注和生成。这种无缝集成可以帮助组织充分利用GenAI的能力,无需进行手动干预,提高数据管理效率,改善整体数据质量。
总的来说,人工智能和数据质量的交集标志着分析领域的重要转折点。GenAI的能力可以提升数据质量并提供可操作的洞见,有潜力改变行业。通过重新思考传统方法并利用人工智能来增强数据,组织可以开启创新和增长的新机遇。随着我们前进,很明显分析的未来将由那些拥抱GenAI的力量所决定。
希望您觉得这个有用。请告诉我您的想法!也欢迎在LinkedIn https://www.linkedin.com/in/jonas-dieckmann/ 上联系我,或在这里关注我。
参考资料
[1] Gartner(2023):新兴技术的炒作周期https://www.gartner.com/en/newsroom/press-releases/2023-08-16-gartner-places-generative-ai-on-the-peak-of-inflated-expectations-on-the-2023-hype-cycle-for-emerging-technologies
[2] OpenAI - ChatGPT: https://chatgpt.com/