每周人工智能和自然语言处理新闻-2023年10月10日
lama Long、OpenAI 和Microsoft正在研发他们的人工智能芯片,同时推出一门免费课程,介绍LLM技术最新进展。
这里是由NLPlanet为您筛选的每周自然语言处理和人工智能的文章,指南和新闻!
😎 网络新闻
-
Translated Text Meta悄然推出Llama 2 Long AI,击败了GPT-3.5 Turbo和Claude 2在某些任务上。Meta发布了Llama 2 Long,这是Llama 2的增强版,经过不断的预训练,使用更长的训练序列和上采样的长文本。通过添加4000亿个词元并对旋转位置嵌入(RoPE)进行微调,Llama 2 Long现在可以处理更长的信息序列,并在其模型的知识库中包含更少相关的信息。
- 微软将推出自家AI芯片,减少对英伟达的依赖。微软即将推出自家的AI芯片Athena,旨在减少对英伟达GPU的依赖,并与英伟达的H100 GPU在数据中心的AI加速领域展开竞争。
- OpenAI正在考虑研发自己的人工智能芯片,以探索自建AI芯片的可能性。由于全球训练人工智能模型所需的处理器短缺,OpenAI正考虑为ChatGPT开发自己的AI芯片。这一举措可能有助于减少ChatGPT的高运营成本,目前每天达到70万美元。OpenAI的决策可能与其合作伙伴微软有所不同,后者也在研发自己的AI芯片。
- 扩展GAIA-1:用于自动驾驶的90亿参数生成世界模型。GAIA-1是一个强大的9B模型,专为自动驾驶而设计,能够生成合成数据。它采用了视频建模方法,类似于LLM,通过预测下一个标记来生成数据。在包含4700小时伦敦驾驶数据的大型数据集上进行训练,GAIA-1在生成更多数据方面非常准确。
- 介绍稳定的LM 3B:为智能设备带来可持续、高性能的语言模型。Stability AI推出了稳定的LM 3B,这是一个专为智能设备设计的高性能语言模型。拥有30亿参数,它胜过最先进的30亿模型,并降低了运营成本和功耗。该模型使得在智能设备、个人电脑和边缘计算上可以应用更广泛的应用。
📚 来自网络的指南
- 免费课程,关于LLM的训练和细调。Activeloop发布了一门名为“训练和细调LLM用于生产”的课程,涵盖了LLM的发展和基本原理。它还探讨了用于训练LLM的操作技术(LLMOps),并提供了与AI数据库一起进行实践项目。该课程为AI专业人员提供了有效训练和细调模型的技能,解决了LLM中的偏见和幻觉问题,并利用了最先进的技术来实现最佳行为。
- 重点关注LLMs的无穷流畅性。带有关注汇聚令牌的窗口注意力是在Chat-style大型语言模型(LLMs)(如Llama,Mistral,MPT,Falcon和GPT-NeoX(Pythia))中保持流畅性的解决方案,这些模型通常在内存限制方面存在困难。该方法有效地管理注意力分数,并在窗口注意力中第一个令牌移出窗口时防止流畅性丧失。
- 使用Hugging Face的PEFT库进行提示调优,保持HTML结构。Hugging Face的PEFT库提供了一种名为"Prompt Tuning"的高效的"Additive Fine-Tuning"技术,适用于大型语言模型。通过训练与提示相关的额外层,它避免了改变原始模型的权重。使用PEFT库,模型仅需要修改0.0007%的权重。
- 使用LLM进行客户分割的掌握。 本文提供了一份全面指南,介绍如何利用LLM进行客户分割。它涵盖了各种技术,如Kmeans聚类、用于异常值检测的PyOD库、用于确定最佳聚类的Elbow Method和Silhouette可视化、评估指标,以及使用PCA、T-SNE和LLM来提取文本嵌入。
- 使用知识图谱实现DevOps RAG应用。在人工智能领域中,使用知识图谱来实现DevOps RAG应用正变得越来越流行,因为它可以高效地管理结构化和非结构化数据。学习如何使用LangChain并设置Neo4j环境,创建数据集,并为实现知识图谱分配向量索引。
🔬 有趣论文与资源库
- 注意力下沉的高效流模型。来自麻省理工学院、Meta AI和卡内基梅隆大学的研究人员开发了StreamingLLM,这是一个能够在LLMs中进行无限长度语言建模的框架,而无需昂贵的精调。通过利用注意力下沉标记,这种高效的方法使得像GPT-3和PaLM这样的模型能够处理超过400万标记的上下文,从而在性能上提供了显着的改进。
- 元研究人员发现显式寄存器消除了ViT的注意力峰值。Meta和INRIA的研究人员发现了一种新的方法来解决Vision Transformers(ViTs)中的注意力峰值问题。通过引入专门的“寄存器”令牌进行临时存储,他们在ViTs中实现了更平滑的注意力映射,改进了下游性能,并提高了对象发现能力。
- 还有很长的路要走:调查RLHF中的长度相关性。一项研究显示,输出长度较长有助于提高RLHF的奖励得分。探索复制这些改进但不增加长度的干预措施,但有效性不同。
- 在说话之前请三思:使用暂停符号训练语言模型。最近的研究表明,在语言模型中使用暂停符号可以在生成下一个标记之前进行更全面的计算,从而提高推理任务的性能。研究发现,在问答和推理等任务中取得了显著的得分提升。
- 大型语言模型作为类比推理器。类比提示是LLMs在生成相关示例以解决任务时利用过去经验的一种有效方法。它在包括数学、代码生成和推理任务在内的各个领域中,相较于零样本和手动少样本方法,表现出卓越的性能。
- 使用视觉指令调优改进基准。研究人员利用CLIP-ViT-L-336px和MLP投影对LLaVa多模态LLM进行了显著增强。通过整合学术任务导向的VQA数据和回答提示,最终的13B检查点在各种基准测试中取得了显著的性能。此外,它仅需要 120 万公开可用的数据,并且可以在单个8-A100节点上在短短一天内完全训练。
- 使用事实增强的RLHF对齐大型多模态模型。LLaVA-RLHF是首个开源的RLHF训练的大型多模态模型,在视觉推理方面表现出色。它胜过了多模态GPT-4,并在LLaVA-Bench、MMBench和MMHal-Bench上设立了新的基准。作者引入了事实增强的RLHF(Fact-RLHF),这是一种使用事实信息(如图像标题和真实的多选项)增强奖励模型的对齐算法。
- SkyPilot,运行LLMs,人工智能和批处理作业在任何云端。SkyPilot 是一个开源框架,旨在高效地运行LLMs和批处理作业,跨多个云服务提供商进行。它确保最大限度地提供GPU,并具有自动故障转移和成本节约功能。
感谢阅读!如果您想了解更多关于自然语言处理(NLP)的内容,请记得关注NLPlanet。您可以在领英、Twitter、Medium以及我们的Discord服务器上找到我们!