模拟整个互联网的项目
我向ChatGPT(带有Bing的GPT-4)提出了以下问题
Q. 一个美国组织模拟整个网络的项目是什么?
ChatGPT(Bing的GPT-4)的答复来了。
A. 你所提到的项目由麻省理工学院的研究人员领导。他们利用超级计算系统,开发了一个模型,模拟了给定一天全球网络流量可能会看起来的情况。这包括各种类型的互动,从像Google和Facebook这样的科技巨头到罕见的、短暂的连接,但仍然似乎影响了整体网络流量1。
该模型可以处理任何大型网络数据集,并生成关于网络中所有连接如何相互影响的统计数据。它可以揭示关于点对点文件共享、恶意IP地址和垃圾邮件行为、关键领域攻击分布以及交通瓶颈的见解。然后可以利用这些统计数据更好地分配计算资源并保持数据流动。
研究人员收集了世界上最大的公开可用的互联网流量数据集,其中包括全球各地多年来交换的500亿个数据包。然后,他们将这些数据通过一个跨越MIT SuperCloud的10,000个处理器的神经网络管道运行。该系统结合了来自MIT林肯实验室和整个学院的计算资源。
研究人员与由日本多所大学共同创立的Widely Integrated Distributed Environment(WIDE)项目以及加利福尼亚应用互联网数据分析中心(CAIDA)合作,共同捕捉了全球最大的互联网流量数据包捕获数据集。这份匿名数据集包含了从2015年起在日本和美国的各个地点随机选取的几天内,消费者与各种应用和服务之间的近500亿个独特源和目的地数据点。
为了处理数据集,他们使用自己创建的软件,称为动态分布式维度数据模式 (D4M),以高效地计算和排序超稀疏数据——即包含比数据点更多的空白空间的数据。将数据分解为约10万个数据包的单位,跨越1万个MIT SuperCloud处理器,创建了数十亿行和列之间源和目标之间交互的紧凑矩阵。
神经网络用于处理矩阵,将模型拟合到全部数据中,创建了潜在准确模型的概率分布。研究人员修改了传统的误差校正技术,进一步优化每个模型的参数,以捕获尽可能多的数据。这使得模型能够考虑所有的离群数据,例如孤立的链接,在整体测量中都有重要意义。
神经网络基本上生成一个简单的模型,描述了互联网流量数据集,“从非常流行节点到孤立节点,以及中间所有事物的完整谱”1。该研究在高效处理“火力水管流量”以识别有意义的模式和网络活动方面具有开创性1。除了互联网,神经网络管道可用于分析任何超稀疏网络,如生物和社会网络1。
参与该项目的研究人员包括Jeremy Kepner,日本互联网倡议组织的Kenjiro Cho,加州大学圣迭戈分校应用互联网数据分析中心的KC Claffy,林肯实验室超级计算中心的Vijay Gadepally和Peter Michaleas,以及麻省理工学院地球、大气和行星科学系的研究员Lauren Milechin。
相关链接: