认识你的新联合主持人: 人工智能将如何改变播客产业

(image generated by OpenAI gpt-4o)

想象一种如此多才多艺的功能,它可以赋予企业力量,提升兼职工作,并激发爱好者的创造力 - 同时使日常任务更加顺畅和智能化。我一直在探索这种具有颠覆性能力的特性,其潜力非常了不起。在这篇文章中,我将揭示其最具突破性的应用之一,并展示它如何重新定义播客制作的可能性。

上下文

OpenAI 最近发布了 ChatGPT 中的“高级语音模式”功能,以及实时 API,可以实现语音对话。这也通过 AI Studio 在 Microsoft Azure 上发布,使用了 GPT-4o-Realtime-Preview 模型。

让我们深入探讨为什么这种新能力对人工智能技术来说是一项突破。以前,要实现语音到语音的能力,一个人需要将多个步骤粘贴在一起。首先,你需要使用语音识别服务将口头音频转录为文本。然后通过分析模型运行该文本以生成一个回应。最后,你需要使用文本转语音服务将模型的回应转换回语音。这种多步骤过程更加繁琐实施起来,并可能导致质量下降,如延迟更长和情感丧失。

通过新的实时API,一切都可以流畅且直观地运作。它允许您直接传输音频输入和输出,从而实现更自然的对话体验,并且只需一个API调用即可完成。您可以在这里阅读有关公告和功能的更多信息。

人工智能如何成为您播客的终极联合主持人

现在,让我切入正题。我不仅是一位人工智能爱好者和从业者,而且还是一位铁杆的职业摔跤迷。小时候,我(也许还有成年时)经常扮演摔跤手进行自我推广的独白,或者扮演解说员进行摔跤比赛的评论。我也会听几个摔角播客,比如Bruce Prichard和Conrad Thompson的《和某人聊聊摔角》(这对任何摔角迷来说都是必听!)当我听他们的播客时,我想到了让人工智能成为播客的联合主持人多酷,利用新的先进的语音功能。

您可以在Microsoft Azure上使用Azure AI Studio中的实时音频游乐场进行评估,但是在这次测试中,我使用了我的iPhone上的OpenAI的ChatGPT应用程序与gpt-4o。我对以下结果以及我的演示感到非常印象深刻。注意:在演示的最后,我很惊讶“贝基”自己创建的问题,因为我没有给出指导,而是即兴提出了这些问题!

结果和优化

以下是我作为播客AI共同主持人所学到的一些见解和最佳实践,以取得积极的效果……

ChatGPT 的对话性质很了不起。在开始播客之前,我向 ChatGPT 提供了背景信息,以确保它提供更优化的结果(上面的演示中并未包括这一点)。以下是我实施的一些措施:

  1. 给它一个名字——我给我的ChatGPT取了一个名字,让它听起来更真实。我把它叫做“贝基”(Becky),以向有史以来最受欢迎和成功的女子摔跤手之一贝基·林恩(Becky Lynch)致敬。
  2. 设定舞台 - 我向贝基提供了非常具体的背景信息,说明了目标是什么(模拟一档直播播客),以及我需要贝基做什么。例如,我指定了20世纪80年代末摔跤话题,我们将涉及霍克·霍根和疯狂人的崛起和垮台作为一个团队。
  3. 提供关于演讲的具体要求——我告诉贝基要尽量真实地说话,不要提供完美的回答,要随意自然,表现出情感,不要说过长的回答。(您也可以从预设的语音中选择您想要使用的一个。我选择了“索尔”。目前有9种不同的选择。)
  4. 让你的联合主持问你问题 — 我告诉贝基让她问我问题,作为在特定话题上进行自然对话的方式。这样可以确保播客不会变成我只问贝基问题的单向对话。

“模块知识”很棒 - 这令人印象深刻。贝基能够提供的细节水平,或者通过提示或推理给出的都很准确。贝基使用像“脚跟”(在摔跤术语中意为“坏人”)这样的术语。在实际播客过程中,我不需要对贝基进行非常明确的引导,这使结果听起来更加自然。

创造力——当问贝基,摔角联赛5月的主赛事在疯狂人职业生涯中的排名时,她与对其摔角联赛3月比赛的历史参考联系在一起,后者也被认为是有史以来最伟大的比赛之一。这证明了贝基的评论非常聪明和相关。

处理中断 - 这种让我(用户)能够打断贝基(聊天助手GPT)的能力充分展示了播客节目的现实感。我可以在贝基说话的中途中打断她,而贝基会适应我选择的任何方向。

多人播客 - 在我的演示中,只有我和贝基,但是你可以与多位人类一起做这个。这将会更加有趣,贝基会倾听并自然地加入对话。

需要注意的事项:

暂停 - 我讲完一句话到贝基说话之间有短暂的停顿(大约1-2秒)。这是非常合理的,因为我是用 iPhone 进行操作。我还通过 Azure AI Studio 进行了一些测试,响应时间类似,但可以通过静默持续时间参数加快速度。我进行的后续测试也更快。有许多因素会影响延迟,这里我不会深入讨论,但想分享我演示时的结果。这会有所不同。

更长的答案 - 尽管我在提示中指定了上下文,但有些答案仍然有点长。我需要再做一些调整,以获取适合我的用例的恰当深度回答。

重复的短语 - 贝基喜欢经常说“马克,你觉得怎么样?” 这可以通过参数调整和额外提示技巧来调整,因此完全可以解决。

优化您的使用情况 - 在我的例子中,第一次测试时,我发现贝基会在提供第一个反馈时就透露比赛的结果。我在提示中添加了一些指示,告诉贝基不要立即透露比赛结果。我告诉贝基在讨论结果之前至少进行一次来回聊天,除非我另有说明。这样效果很好。

結論

我们只是开始探索先进语音模式功能的潜力。拥有人工智能作为播客合作伙伴,利用先进语音模式或实时API,开启了许多新的可能性。这是尖端技术。想象一下一个能吸引所有受众,讨论几乎任何话题,拥有丰富知识,并能以自然会话风格互动的合作伙伴-实时的。它将为未来多年来改变播客游戏,带来无限迷人、互动和有趣的体验。

2024-10-29 04:16:55 AI中文站翻译自原文