ChatGPT即将变得更加人性化

我们应该在哪里划定界限？如何为人工智能建立边界？在什么时候会越过过于类人的领域？在周一发布的令人激动的更新中，OpenAI为ChatGPT引入了一项具有革命性的改进，我不确定自己是应该感到兴奋还是恐惧。最新的进展使GPT-3.5和GPT-4人工智能模型不仅可以处理文本，还可以分析图像，将视觉元素融入基于文本的对话中。

但这并不是全部 — OpenAI 通过引入语音合成选项，将 ChatGPT 移动应用推向一个新的高度。当这一创新功能与应用现有的语音识别能力结合起来时，就可以完全以口头方式与 AI 助手进行交流。简而言之，您将能够与 AI 进行完整的对话，就像与人类一样。

OpenAI计划在未来两周内向Plus和Enterprise订阅用户推出这些具有突破性的功能。值得注意的是，语音合成功能仅适用于iOS和Android平台，而图像识别功能可以在Web界面和移动应用上使用。ChatGPT有一个很酷的新功能 - 现在你可以在聊天过程中添加一个或多个图片，感谢GPT-3.5或GPT-4的图像识别功能。

OpenAI在他们的博客中充满了对于这对于日常杂事有多方便的讨论。想象一下，通过拍照来弄清晚餐应该做什么，或者试图弄清楚为什么烧烤炉如此难缠 - ChatGPT的图像智能可以解决这些问题。

并且听好了 - 你不仅仅是个旁观者。利用你设备的触摸屏，获取主导权，标示出你希望ChatGPT检查的部分，然后让其忙碌吧。就像拥有一位精通技术的得力助手！这些升级能力的潜在应用就像它们的前景一样多样且有前途。

让我们来分解一下它的工作原理。虽然OpenAI并没有透露有关GPT-4和GPT-4V的详细技术，但我们可以从人工智能研究中了解到一些情况，包括Microsoft（OpenAI的合作伙伴）的研究。通常，多模态人工智能模型（如GPT-4V）会将文本和图像转换成一个共享的编码空间。这个共享空间使得它们能够使用同一个神经网络来处理不同类型的数据。

虽然OpenAI没有提供具体细节，但他们有可能使用了CLIP（对比语言-图像预训练）这一软件，它可以连接视觉和文字数据。它将这些表征对齐在一个共同的空间中，形成一种数据连接的网络。如果是这种情况，ChatGPT有可能从文字和图片中理解上下文，但需要明确的是，这些只是我的猜测，并未得到OpenAI的确认。

基本上，这代表了人工智能迈出的一大步，更接近实现真正的人工智能。OpenAI作为先驱者脱颖而出，提供目前最先进的人工智能，并且如果有一天出现人工智能的起义，我们将知道谁位于前沿。