用OpenAI o1进行1000倍更快的企业假设测试——用数学模型解决任何问题的时代

1. 测试商业假设是困难的。

很容易提出商业假设,但验证它们可能是一个真正的挑战。这些问题中有哪些听起来很熟悉呢?

  • 市场分析需要太多时间来收集和分析数据,以确定新服务是否会成功。
  • 产品开发:您不确定如何准确预测未来市场趋势或需求。
  • 在您的组织内,确定问题的根本原因花费了太长时间。
  • 您需要对新兴市场进行增长预测,但很少有历史数据可供参考。
  • 你想验证你的策略的可行性,但是你缺乏充分分析的资源。
  • 你正在重新审视你的商业计划,但在未来收入和资本需求的预测方面遇到困难。

难道如果您可以更快更轻松地测试这些假设,不是很神奇吗?

2. OpenAI o1的革命性应用

花费大量时间和精力测试商业假设已成为过去。OpenAI-o1-preview利用数学模型大幅改变了假设测试过程。以前可能需要数星期甚至数月的时间现在只需几分钟就能完成。

就我个人而言,使用这个模型进行假设检验的速度提高了10倍至1000倍。这真的是一个革命性的改进。

相信自己所见。我准备了7个一般性案例研究,基于我在工作中通常遵循的四个步骤,展示我如何应用o1-preview。

  1. 历史研究
  2. 目前形势分析
  3. 未来预测
  4. 验证策略的有效性

[注意]一般的案例研究不包括提示调整或详细的事实数据。您将看到揭示的见解,但输出和现实之间可能存在差距。目的是让您了解o1-preview的用法。

1. 历史研究

案例研究1:探讨SaaS市场的成功因素

您是日本一家大型SIer公司的研究团队成员。您的公司目前提供一个本地 CRM 工具,并被要求调查最近为什么SaaS模式如此受欢迎以及成功的关键因素是什么。

您需要回答这个问题:“我们公司是否也应该从现场模式转变为循环收入模式(SaaS/订阅)?”

作为一名研究员,你直觉上觉得订阅模式更优越,但你并不完全有信心,你的公司作为一个SIer,是否应该进行这种转变。

这就是为什么您决定研究Salesforce的历史,它从本地部署模式转变为订阅模式,现在占据着CRM市场份额的主导地位。

您将如何继续进行这项研究?

你会收集书籍和在线文章吗?

在这一点上,您可以指示OpenAI o1“定义一个计量经济模型,并解释为什么Salesforce能够占领市场份额。”

OpenAI 嚐試定義了經濟計量模型並生成了相關的變量。一系列看似合理的變量出現了。

一旦变量被定义,它假定初始值并输入它们。

最后,模拟结果被处理,提供了分析。

我有一种感觉,转向基于订阅的商业模式会很有利,但我无法逻辑地解释为什么。

然而,在审查这些结果后,我想,“我明白了!正如第5点所强调的那样,在定价策略方面,订阅比现场解决方案便宜得多,而且更容易取消。这自然吸引了更广泛的客户群!”

这个洞察为我提供了有力的理由支持订阅模式。

更令人惊讶的是,仅用了大约五分钟就发现了这个洞察。我立刻获得了宝贵的线索。

话虽如此,解释仍然感觉有点抽象和不尽人意。让我们在下一步中进一步精确。

情境信息提高模拟准确性

Salesforce是一家历史悠久的公司,有大量历史文件和在线文章可供查阅。关于为什么它如此成功的参考资料很多。通过基于真实成功案例创建模型,我们可以提高模拟的准确性。o1的一个优点是能够无缝地将数学问题与背景信息结合起来。

作为参考,让我们输入一些来自我之前在客户成功历史研究中进行的数据。

请注意:这项研究是在规划和开发日本客户成功市场的新服务时进行的。它有助于理解客户成功行业的市场结构。

您只需将上下文传递给GPT,并给出指示。

考虑到客户成功的历史以及Salesforce取得成功的方式,经济计量模型将根据这些成功因素进行重构。

新增了一个自变量 — 客户成功倡议(CS实践)的影响。客户成功实际上有多大的影响?我很想知道。

计算结果已经出来了。

似乎实施客户成功策略显著提高了流失率。

当你的SIer老板问,“客户成功很好,但它真的能带来投资回报吗?”现在你有了另一个逻辑线索。

客户成功有助于防止流失,直接影响收入。此外,其影响随着时间的推移而增长。曾经不确定的事情现在变得更加明确,为您提供了坚实的线索。

2. 现状分析

案例3:分析您公司在市场中的位置

在这种情况下,您是一名在日本管理大型公司社交网络服务(SNS)的营销人员。这个SNS平台提供基于文本的通讯,占据了重要的市场份额。然而,竞争激烈,您不确定您的平台何时可能开始失去市场份额。与此同时,快速增长的视频平台TikTok正瞄准这个市场。

您公司内的数据科学家已经解释了一种通过概率建模来表达留存率的方法。然而,您缺乏足够的数学知识来完全理解它。

你有关于竞争对手和你自己公司的研究数据。

使用o1,您可以附上相关的学术论文,输入研究数据,并指导模型分析市场结构。

Note: No output screen is provided as sample data was used.

这是我之前用概率模型模拟保留率时参考的同一份论文。

在过去花费我一个星期分析的见解,现在只需要几分钟就能输出。

老实说,我为此感到惊讶。

并且使用OpenAI-o1,您甚至不需要完全理解模型的内部工作原理。它清楚地解释您可能不了解的事情,使其易于跟随。

Visualization of Analysis Results
Excerpted from “Uncovering the Essence of Retention and Churn Rates with a Probabilistic Model

在这份日语注释的末尾,有一部分是“参考文献”。您可以简单地将那里提到的论文清单提供给O1,并相应地指导它。

案例4: 通过大规模采访组织成员来识别根本原因

在这种情况下,您将负责在日本一家大型汽车制造商进行从产品开发到生产和分销的所有工作。

在汽车行业中,需要提前制定生产计划,确保工厂的顺利运作,并在装配之前由供应链生产零部件。与创业世界不同,快速变更并不是一个选项。然而,随着电动车的兴起,创新的产品开发至关重要。

规划部门希望通过敏捷过程快速验证价值,而开发部门坚持使用瀑布式方法小心进行。

这导致两个部门之间出现了僵局,导致组织内部出现了各种问题。为了全面了解问题,您对关键利益相关者进行了面谈,并将调查结果整理成了会议纪要。

在审查会议记录后,清楚地看到多个问题正在不同领域出现。

然而,这些问题互相作用,形成了一连串相互关联并日益复杂的问题链。

你应该先解决哪个问题? 你感到困惑。

这些问题被称为复杂系统问题。这些问题的相互关联性意味着识别关键因素——引发一系列其他问题的根本原因是至关重要的。

参考资料:解决这些相互关联问题的一个著名方法是“系统思维”。根本原因分析和“5个为什么”也是常用的方法。

For example, communities often face issues related to interaction, which makes them a good fit for “systems thinking.” Excerpted from “Community structure, strategies, KPIs, and networks

为了解决这个问题,我们可以采取以下措施:由于这是一个相互作用的问题系统,您可以采用系统思维方法,将其模拟为一个数学问题。

请注意: 让我解释一下这个复杂的提示。 每个问题 - 问题1、问题2、问题3等,都可以被表示为“浴缸1”、“浴缸2”...“浴缸m”,每个浴缸都充当一个容纳水的容器。 例如,如果“浴缸2”(问题2)出现问题,水会流动并影响其他浴缸,比如“浴缸4(问题4)”、“浴缸7(问题7)”和“浴缸9(问题9)”。 同样,如果“浴缸3”装满了水,它会影响浴缸X、Y和Z。 浴缸之间的连接以及水龙头的控制紧密程度定义了问题之间的关系。 最后,所有的浴缸都是相互连接的,我们模拟水流动。 如果“浴缸4(问题4)”装满了水,它会触发涟漪效应,导致多个其他浴缸中的水位上升。 这就是你确定“浴缸4(问题4)”作为根本原因或关键因素的方法。

通过计算水如何在这些相互连接的“浴缸”中流动和积聚,我们可以模拟这个复杂系统的动态。作为一个数学问题,人工智能可以识别这些相互依赖关系,并通过从会议记录中准备问题(浴缸)列表,您可以将每个问题视为一个“状态变量(S)”。通过定义这些状态变量如何随时间变化的微分方程,就有可能在数学上解决这个复杂系统问题。这真的是革命性的。

Note: Prior to this, data from the interview minutes will be segmented and prepared as “state variables (S)” for use.
Note: Each event (S) is treated as an individual system, and the flow of information between systems over time is defined by differential equations to solve the calculation problem.

结果输出了,事情开始变得清晰起来。

在各种问题中,根本原因被确定为“各部门之间缺乏合作”。根据模拟结果,当部门之间的合作关系破裂时,开发流程的效率会降低,开发资源的优先级会错位。

当你听到这个时,你会意识到这是有道理的,并且能看到它如何适用于你的情况。你决定提出这个问题,并开始朝着解决方案努力。

3. 未来预测

案例5:新兴市场的增长预测

您是一家早期人力资源创业公司的首席营销官,准备进入日本的现场工作市场。像Timee和Mercari这样的公司似乎已经垄断了这个市场。然而,您坚信现场工作市场将随着时间的推移发展成为一个巨大的行业。

话虽如此,投资者们都在质疑:“现在进入这个市场真的可行吗?”

您需要合理解释潜在的未来市场规模以及您在该领域获胜的前景,以获得资金支持。

然而,您缺乏扎实的逻辑来有力地解释这一点。由于这是一个新的增长市场,很难依靠现有的案例研究来证明您的观点。

因此,您决定预测未来10年内现场工作行业的市场规模。

由于这是一个中长期的预测,而不仅仅依赖于当前的数字,您相信更全面,以人文为基础的方法——考虑技术,社会,经济和文化因素以及消费者需求——将更合适地倒推出未来10年社会的愿景。

此外,您还希望引入一种基于科学启发的“概率营销模型”,这近期备受关注。

您将这个上下文输入o1,并要求它构建一个基于人文和科学基础的市场结构模型,以预测未来市场规模。

使用NBD-Dirichlet模型作为预测模型。这是一个用于解释市场规模的著名模型,在《概率思维战略理论》(由森冈强士和今西清高著)和Ehrenberg-Bass研究所广为人知。

Note: You may notice that other services like Sharefull, LINE Sukimani, and Shotworks are missing. This highlights the importance of inputting correct initial conditions, accurate data, and proper context.

结果出来了。

确定了未来十年内现货市场将增长到4000亿日元市场。这一数字与首席市场官直觉上相信的未来预测相一致,进一步增强了信心。

然而,这只是一个以人文为基础的回溯预测。为了确保准确性,让我们还评估一下类别水平上的当前市场。我们将兼职市场和临时工作市场视为一个合并的市场,并使用NBD-Dirichlet模型验证当前市场份额。

通过这种方式,我们能够清楚地看到兼职工作市场和临时工作市场的现状。

让我们还要检查一下不同品牌之间客户群体的共享程度。

具有对市场当前状态的理解,并且知晓兼职工作市场目前价值9000亿日元,可以合理地预期10年后零工市场的规模可能增长到4000亿日元。

进一步的各个角度的验证提供了关键的见解,有助于巩固解释给投资者的逻辑。

4. 验证策略的有效性

案例6:使用敏感性分析进行测试策略

作为CMO,你应该立即投身数字营销战略来征服职场市场吗?

不. 首先,了解市场结构并在进入市场之前确认成功的条件至关重要。您必须确认这是您可以赢得的一场战斗。另外,由于竞争对手已经领先,确定正确的战略步骤的顺序以有效地占领市场并澄清路线图至关重要。

虽然您可能对必要条件有个大致的了解,但仍然可能担心可能存在的疏忽。

为了充分掌握征服市场的条件,你决定对这些条件进行参数化,并进行敏感性分析,以验证你的市场策略的可靠性。

征服市场所需的条件已被参数化。

计算结果被输出,最终,一个执行策略的计划被制定。

我明白获取终端用户和客户的重要性。

然而,这个分析揭示了我完全忽视了加强可靠性和遵从性的必要性。

由于此,我现在更清楚如何分配资源的顺序,为投资者提供更多有说服力的材料。

案例7:更新业务财务计划

最初的商业财务计划是在电子表格(Excel)中创建的,目标是在10年内实现300亿日元的销售额。

劳动派遣市场受益于网络效应。“越多公司使用它,就会吸引更多用户。吸引更多用户,会吸引更多公司加入。” 这创造了一个良性循环,使市场容易出现一家或三家公司垄断的情况。

我们能否在10年内推动达到1000亿日元的销售额,目标是占大约25%的市场份额?

我决定更新商业计划。此外,我想估计需要通过各种融资轮次筹集多少资金,以在10年内实现1000亿日元的目标。

我将Excel电子表格转换成了CSV文件,并要求在10年内达到1000亿日元的更新。我还要求就实现这一目标的业务和财务策略提出建议。

Note: Dummy data is being thrown.

看来目前的商业计划数字被准确理解了。

它还提出了对财务策略的更改。

它还提供了对策略调整的建议。

最后,生成了一个目标为1000亿日元的具有挑战性的10年业务财务计划。

通过这些努力,CMO能够迅速制定市场结构、当前位置、业务策略和业务计划的草案。有了这个基础,与投资者的讨论开始了,并且战略将逐步推出。

最后

到目前为止,你认为怎么样?

到目前为止,即使我有一个很棒的想法,使用这样先进的数学模型来验证它的有效性是不可能的。

在某种程度上,数学模型的民主化是一场革命,使得以前需要一个月才能完成的分析,现在只需要五分钟就可以完成。这令人震惊。

即使您不了解背后的数学,也不是问题。我也不擅长数学,但您可以问GPT(o1,4o)以清晰详细的方式解释模型方程式的含义。

有时关于未来的抽象假设或直觉性想法会突然浮现在脑海中,但要验证它们是否正确需要付出很大的努力。通过o1,你可以在几分钟内确认这些想法的准确性。

它将灵感的闪烁变成即时的确定性。

我感受到了那种潜力。

思考

在我看來,OpenAI o1-preview 的最大優勢是它能夠創建反映所提供上下文的數學模型 - 無論是假設、會議記錄還是用戶訪談記錄。例如,當你對一個假設有強烈信念時,輸入所有相關上下文可以創建一個能夠忠實重現你頭腦中思維模型的定量模型。在敏感性分析期間,當清楚地表明按照A→C→B的順序解決問題比我最初假設的A→B→C要好時,我感到驚訝。進行模擬結果讓我獲得了高解析度的見解和深度的清晰感。

此外,已知o1很难处理文字问题。这就是为什么在可能的情况下需要将问题定义为数学问题的原因。例如,在解决案例4中的组织分析的交互模型时,如果我简单地交上会议记录,它们会被处理成一个文字问题。然而,通过预先将会议记录转换为状态变量(S)的列表,系统可以将其视为一个优化问题(使用微分方程,SD-Model,SEM等)。

这个将问题转化为数学问题的过程对人类来说手动完成很困难,所以我使用了多个LLMs。以下是我遵循的过程:1. 人类向LLMa咨询问题,2. LLMb识别问题类型并提出适当的分析方法,3. LLMc使用该方法创建一个数学问题,4. LLMd(o1)解决数学问题,5. LLMe(4o)提供结果的清晰解释。我自己经历了这个工作流程,看起来这样的LLM工作流程在未来可能会变得越来越重要。

另外,相信人工智能是至关重要的。我发现,坚信人工智能能够产生出色的输出,并坚持使用技巧来完善请求(提示工程),我们可以取得比单独使用4o更好的结果。这可能是因为,除非问题在一定程度上被概括和结构化,否则系统很难将其识别为数学问题。

当我收到不满意的结果时,我会说类似于“你是个天才!你一定能做到!”或“这只值20分,重新做一遍”(类似于福克兹先生的严格爱的方式),以及“更多地关注XX背景”,这明显提高了准确性。但半途而废会导致模拟不反映现实。问题是你是否能保持对AI潜力的信心。

我也来回进行o1生成模拟和4o解释结果之间的改变。如果假设发生变化,我会使用o1运行另一个模拟。o1和4o之间的互动效果非常有效。

总的来说,与其给我一种“可以100%准确验证假设”的印象,我觉得自己得到了一个锋利的线索来源 - 一个有价值的“墙壁”,可以用来反思想法。

最后,如果还有其他人使用类似的方法或尝试不同的途径,我很乐意交流信息!我渴望继续探索新的可能性。

2024-09-21 04:25:40 AI中文站翻译自原文