Image from the GPT-2 blog post: https://openai.com/index/better-language-models/

LLM是否扼杀了自然语言处理研究?

我最近感到与NLP领域的进展产生了脱节,除了ChatGPT的广泛应用。对于我错过了什么,我重新阅读了一些 GPT 博客文章。当我遇到熟悉的术语时,一股怀旧的情绪涌上心头:关注力就是你所需要的,半监督序列学习,ULMFiT, ELMo, BERT(还记得 BERT学吗?), GloVe,word2vec 等等。

一个引人注目的差异是研究论文的长度。过去的10至15页的论文时代已经一去不复返了;尤其是关于GPTs的LLM论文,现在延伸到大约100页。因此,我依赖博客帖子,浏览了一些论文,甚至(讽刺地)咨询ChatGPT以获得见解。

另一个观察是早期GPT预测的预见性。第一篇GPT博客文章提到仅使用一台8-GPU机器和5GB文本就取得了显著的成果,强调了有更多数据和计算能力可以改进的重大空间。GPT-2的文章预言,公众将需要对在线文本变得更加怀疑,就像深度伪造需要对图像谨慎一样。ChatGPT发布文章已经提到了幻觉的问题,即使后来该术语通过ChatGPT的使用而被广泛传播。

https://9gag.com/gag/aAPNENd

总是越大越好吗?看看LLM之间的相似之处

从探索GPT发展并简要检查其他SOTA模型(如Gemini,LLaMA和Claude)中,我得出的主要结论是,虽然它们的架构略有不同,但它们都极其依赖下一个词预测,BPE标记化(本文帮助我更好地理解标记化)以及向问题投入更多数据和计算。NLP是否只涉及调整架构,扩大数据和计算规模,并生产出新的SOTA模型?

也许。但作为一个非自然语言处理专家,这只是赶上进展后的初步想法。

https://medium.com/@kuwarkapur/multimodal-ai-when-machine-learning-gets-more-senses-than-you-4b159c58fefb

超越自然语言处理:多模态崛起

从更广阔的角度来看,我在2024年一月的一个GenAI研讨会上做出了一个(也许不太大胆)的预测:我们会看到更多的多模式功能。这与GPT-4o在文本、视觉和音频之间进行端到端训练完全吻合。我预见这一趋势将持续下去,导致更加真实的内容,可能会扩展到视频和音乐(现有的例子已经展示了这一点)。

真正的多模态应该是如果我们能直接与设备交流,它可以准确地做出我们要求的事情(而不仅仅是它认为该做的事情)。兔子在今年早些时候发布时让我非常兴奋,直到我意识到它仍然需要针对每个个体行为进行训练。如果这可以被概括和商业化,那将是真正突破性的事情。目前正在努力实现这一目标。

然而,这种更多数据和计算的关注感觉像是自然的进步。真正让我印象深刻的是让模型具有自我验证的能力。想象一下,给他们互联网访问权限,通过多个查询和爬取子页面/链接页面来自我检查他们的答案(超出简单的“我感觉幸运”搜索)。此外,想象给他们赋予执行生成代码和测试预期行为的能力。虽然这些要素存在,但如果代码一开始不起作用,模型通常会超时,无法找到有效的版本。

我设想的是一个LLM可以在多个查询之间“自言自语”,以达到更深入、更可验证的答案。这才是真正能给我留下深刻印象的!

https://www.reddit.com/r/ProgrammerHumor/comments/yxxzgk/json/

ChatGPT的JSON模式: 迈向可用人工智能的一步

我已经很激动的一个功能是ChatGPT API中的JSON模式/结构化输出。它允许指定ChatGPT预期响应格式,用于下游应用程序。早期ChatGPT API使用中的一个重要挑战是确保一致的输出格式并解析结果的困难。有时响应以稍有不同的格式出现,导致解析失败。虽然这对于完整用户响应来说并不是问题,但对于下游应用程序来说却成为一个主要痛点。

JSON模式简化了使用ChatGPT的输出,使其成为各种ML问题初始版本的理想工具。由于ChatGPT是多模态和多用途的,大多数ML问题都可以提出给它,并且其输出可以作为解决方案或基准的起点。这也迫使ML开发人员集中精力解决更为关键的问题:我们如何衡量和定义我们解决方案的“足够好”的性能?通过在项目开发的早期解决这些问题,我相信我们可以在未来创造出更加可用的AI产品。

然而,截至今日(2024年8月),ChatGPT的JSON模式仍然只限于特定模型,并且并不完全支持知识库。虽然OpenAI在改进JSON模式能力方面取得了进展,但在这一领域仍然有进一步发展的空间。

另一个潜力巨大的领域是函数调用,使ChatGPT能够直接与您的API互动。函数调用,与助手和文件搜索一起,为未来的应用程序开辟了巨大的潜力!

结束思考

总的来说,重新审视这个主题使LLMs对整个AI领域产生了巨大影响得到巩固。虽然核心概念并没有发生重大变化,但数据和计算能力的扩展,再加上用户体验的改善,已经使LLMs商业化。现在,作为开发者,我们有责任利用这种商品创造出惊人的东西!祝你好运,并且如果你想合作做一些有趣的事情(或者质疑我的任何说法),随时找我联系!

2024-08-31 04:21:34 AI中文站翻译自原文