活捉那只抢算力的谷歌员工!挤占计算资源?博弈论或可破解数据中心“囚徒困境”_谷歌公布的数据中心 集群计算工作负载数据集-程序员宅基地

技术标签: 人工智能  

大数据文摘出品

来源:IEEE

编译:赵吉克、武帅、钱天培

 

把“数据中心”和“博弈游戏”两个词放在一起,你会想到什么?经济学家们研究的“囚徒困境”?还是《魔兽世界》的用户数据?

 

我们今天要讲的,正是“数据中心”和“博弈游戏”的结合,但和在线游戏一点关系没有。

 

今天的话题,是切实发生在数据中心的博弈——从共享的大量计算机和存储系统中抢占资源

 

即使是在算力最为充足的的公司——谷歌,员工们也常常进行这样的博弈。

 

当要求提交任务的计算需求时,一些员工会夸大了他们对资源的请求,以减少与他人共享的数量。有趣的是,其他一些员工则会减少了他们的资源请求,假装他们的任务可以轻松地在任何一台计算机上完成。一旦他们在一台机器上开始任务,相关的操作就会耗尽机器上所有可用的资源,并挤掉他们同事的任务。

 

这些伎俩看起来有点滑稽,但它直指一个真正的问题——效率低下

 

2018年,全球数据中心耗电量为2050亿千瓦时,几乎和澳大利亚全境的用电量相当,约占世界总量的1%。由于服务器未被充分利用,因此大量能源被浪费掉了。一台空闲服务器所浪费的电力相当于其峰值用电量的50%;而当服务器开始工作时,其固定的电力成本就将分摊到该工作上。

 

由于运行单个任务的用户通常只占用服务器资源的20%到30%,因此多个用户必须共享服务器以提高其利用率,从而提高其能源效率。共享还可以降低资本、运营和基础设施成本。毕竟,不是每个人都有足够的钱来建立自己的数据中心。

 

 

为了分配共享资源,数据中心部署有资源管理系统,根据用户需求和系统自身目标,对可用的处理器内核、内存容量和网络资源进行划分。乍一看,这个任务应该很简单,因为用户经常有补充需求。但事实并非如此。共享在用户之间产生了竞争,正如我们看到的谷歌员工,很可能会扭曲资源的使用。

 

因此,我们可以使用博弈论(game theory),即描述理性决策者之间战略交互的数学模型,进行了一系列项目,以此来管理这些自私用户之间的资源分配,同时最大化地提升数据中心的效率。在这种情况下,这种博弈还确实有利于解决资源分配问题。

 

货币兑换机制失效,博弈论登场

 

帮助一群理性和自私的用户有效地共享资源并不仅仅是大数据时代的产物。经济学家们几十年来一直在这样做。

 

在经济学中,市场机制根据供求来决定资源的价格。实际上,目前不少公共数据中心就在这么做,比如Amazon EC2和Microsoft Azure。在那里,真实货币的转移充当了一种工具,将用户的动机(绩效)与提供商的目标(效率)结合起来。

 

然而,在许多情况下,货币兑换机制是失效的

 

 

让我们考虑一个简单的例子。

 

假设在你最好朋友的婚礼上,你得到了一张歌剧演出的门票,你决定把票给最喜欢该演出的人。所以你要进行所谓的第二价拍卖:让你的朋友们为这张票出价,规定赢家支付给你第二高的出价。数学上已经证明,在这种拍卖中,你的朋友没有动机去谎报他们对这张歌剧票的估价。

 

如果你不想要钱或不能让你的朋友付你钱,你的选择就会变得非常有限。如果你问你的朋友他们有多想去看歌剧,没有什么能阻止他们夸大他们对门票的渴望。歌剧票只是一个简单的例子,但在很多地方——比如谷歌的私人数据中心或学术计算机集群——金钱要不不能转手,要不就是不该转手,更不能以此来决定谁得到什么。

 

博弈论为这类问题提供了可行的解决方案——实际上它已被应用于计算机网络和计算机系统。我们从这两个领域获得了灵感,但我们也必须解决它们的局限性。在计算机网络中,有很多工作通过设计机制来管理自利的和不协调的路由器以避免拥塞。但是这些模型只考虑对单个资源网络带宽的争用。在数据中心计算机集群和服务器中,有各种各样的资源需要争夺。

 

在计算机系统中,人们对考虑多种资源的资源分配机制产生了浓厚的兴趣,特别是一种称为支配资源公平性的机制。然而,这类工作仅限于性能模型和处理器与内存的比率,它们并不总是反映数据中心的真实场景。

 

“计算冲刺”引起“公地悲剧”

 

为了提出适用于数据中心的博弈论模型,我们深入研究了硬件架构的细节,从最小的层次开始:晶体管

 

长期以来,晶体管在缩小体积的同时耗散的功率越来越小,部分原因是降低了工作电压。然而,到2005年左右,这种被称为登纳德缩放比例的定律已被打破

 

 

结果就是,对于固定的电力预算,处理器不再以我们习惯的速度变快。一个临时的解决方案是将多个处理器核心放在同一块芯片上,这样大量的晶体管仍然可以在经济上得到冷却。然而,很明显,你不可能同时全速运转所有的核心,否则芯片会熔化。

 

2012年,计算机架构师提出了一种名为“计算冲刺”(computational sprinting)的变通方法。其概念是处理器核心可以在短时间间隔(称为冲刺)内安全地突破它们的能量预算。在一次冲刺之后,处理器必须在下一次冲刺之前冷却下来;否则芯片就会被熔毁。如果处理正确,“冲刺”可以使系统对工作负载的变化做出更快速的响应。“计算冲刺”最初是为智能手机等移动设备的处理器而提出的,因为这些处理器必须限制用电量,以节省电量,同时避免“烫伤”用户。但“冲刺”很快就应用于数据中心来处理计算需求的激增。

 

这就是问题所在。假设自私的用户们拥有启用了带有“冲刺”的服务器,这些服务器在数据中心中共享一个电源供应。用户可以通过冲刺来提高处理器的计算能力,但如果大部分处理器同时冲刺,那么电力负荷将会激增。然后断路器跳闸。这就迫使不间断电源(UPS)中的电池在系统恢复时提供电力。在这样的紧急情况之后,所有的服务器都必须在电池充电的时候以额定功率运行——不允许冲刺

 

这种情形是经典的“公地悲剧”(tragedy of the commons)的一个版本,英国经济学家威廉·福斯特·劳埃德(William Forster Lloyd)在1833年的一篇文章中首次提出了这一观点。他描述了如下的情况:假设牧牛人共享一块土地来放牧他们的牛。如果一个牧民把超过分配数量的牛放到公共草地上,这个牧民可以获得边际收益;但如果许多牧民这样做,过度放牧将破坏土地,伤害所有人。

 

我们与当时杜克大学(Duke University)的博士生Songchun Fan一起,把“冲刺”战略当作公地悲剧来研究。我们建立了一个关注两个主要物理约束的系统模型。首先,对于服务器处理器,冲刺要求处理器在芯片散热时等待,从而限制了未来的操作。其次,对于一个服务器集群,如果断路器跳闸,那么所有的服务器和处理器必须在UPS电池充电时处于等待状态

 

我们设计了一个博弈游戏。在每一轮比赛中,用户可能处于三种状态中的一种:活跃状态、冲刺后的冷却状态、紧急断电后的恢复状态。在每一轮游戏中,用户唯一能决定的就是当他们的处理器处于活动状态时是否进行冲刺。用户希望优化他们的冲刺以获得好处,比如提高吞吐量或减少执行时间。但也要注意,这些好处会随着冲刺的发生时间而变化。例如,冲刺在需求量大的时候更有益。

 

 

考虑一个简单的例子。在第5轮,你知道如果此时冲刺将获得10个单位的收益,然而处理器必须冷却几个回合才能再次冲刺。假设现在你冲刺了,那么在第6轮,你会发现冲刺可以获得20个单位的收益。另一种情况是,你将冲刺权保存到了下一轮但所有其他用户都决定在第5轮时冲刺,这导致电力紧急情况,使你无法在后续几轮中冲刺。更糟的是,到那时你的收益就不会那么高了。

 

短跑游戏中的“平均场博弈分析”

 

玩家们使用一个数据中心来共享信息。如果其中一个玩家选择在第5轮冲刺,他们将获得一定的收益,但他们必须要等处理器冷却一段时间才能再次加速。如果他们等到第6轮或者之后再冲刺,他们会获得更多收益。

 

如果太多的玩家同时冲刺,电流大幅度增加会导致断电。在计算机集群的不间断电源电池充电之前,任何人都不能再冲刺,即使是没有冲刺的玩家4也不行。

 

所有用户都必须权衡他们获得的效用的多少和其他用户的冲刺策略,之后再做出相应的决定。虽然少数用户竞争的例子可能很有趣,但随着竞争对手的数量增长到数据中心的规模,做出这些决定就变得非常棘手。

 

幸运的是,我们找到了这种叫做“平均场博弈分析”的方法,可以在在大型系统中优化每个用户的策略。这种方法将所有用户策略考虑为一个整体,避免了考虑每个竞争对手策略的复杂性。这种统计方法的关键在于假设任何单个用户行为都不会显著地改变系统的平均行为。正是由于这一假设,我们可以用单个平均效应来近似所有其他用户对任何给定用户的影响。

 

这有点类似于数百万上班族试图优化他们的日常出行。我们以文摘菌这样一个上班族为例。虽然不能用她以一概全。但是,文摘菌的行为模式可以推断出上班族这一总体在特定一天中希望到达的时间,以及他们的出行计划会如何加剧道路拥堵等。

 

平均场分析允许我们找到冲刺游戏的“平均场平衡”。用户会优化他们对群体的响应。这也意味着,在平衡状态下,偏离他们对整体的最佳响应将没有任何好处

 

在交通情况中,文摘菌会根据对通勤人群平均行为的理解来优化通勤。如果优化后的计划没有产生预期的交通模式,她就会修正自己的预期并重新考虑自己的计划。随着每一个通勤者在几天内的一次优化,交通收敛到一些重复的模式,通勤者的独立行动产生一个平衡。

 

通过平均场平衡,我们制定了冲刺游戏的最优策略:当性能收益超过某个阈值时,用户应该冲刺

 

该阈值根据用户的不同而不同。我们可以使用数据中心的工作负载及其物理特性来计算这个阈值。

 

当每个人都在平均场平衡下以他们的最优阈值运行时,系统将会受益良多。首先,数据中心的电源管理可以是分布式的,因为用户可以实现他们自己的策略,而不需要向中心管理员请求加速许可。这种独立性使得功率控制更加灵敏、节能。用户可以在微秒或更少的时间内调节处理器的功耗。而如果他们必须等待几十毫秒来获得许可,才能通过数据中心,那么这种效果将难以实现。其次,用户可以根据自己的工作负载需求来及时优化加速策略,使得均衡条件下可以完成更多计算工作。最后,当增益超过阈值时,用户的策略就变成了简单的冲刺。这是非常容易执行的。

 

贪得无厌必自毙:在冲刺游戏中,与“贪心”策略相比,使用平均场均衡策略可以用更少的力完成更多的功。

 

博弈论必将发挥巨大作用

 

“冲刺管理项目”只是我们在过去五年中开发的一系列数据中心管理系统中的一个。在每一款游戏中,我们都使用了硬件架构和系统的关键细节来设计游戏。而这样利用这一管理机制使得,当参与者行为表现得过于自私利己时,系统依旧可以稳定运行。我们有理由相信,这样的保证只会鼓励共享系统的参与,并为节能和可扩展的数据中心奠定坚实的基础

 

尽管我们已经设法在服务器多处理器、服务器机柜和服务器集群级别解决了资源分配问题,但是将它们用于大型数据中心仍需要很多工作。一方面,你必须能够生成数据中心的性能概要。因此,数据中心必须部署必要的基础设施来监视硬件活动、评估性能结果和推断对资源的偏好。

 

这类系统的大多数博弈论解决方案都要求分析阶段离线进行。相反,构建可以从一些先验知识开始,然后在执行过程中随着特征变得更清晰,而更新其参数的在线机制可能干扰更小。在线机制甚至可能通过强化学习或另一种形式的人工智能来改进游戏。

 

 

还有一个现实问题就是:在数据中心,用户可以随时进出系统,任务可以在计算过程中随意穿插,服务器可能会失败并重新启动。所有这些事件都需要重新分配资源,但是这些重新分配可能会破坏整个系统的计算,并要求对数据进行分流,从而耗尽资源。

 

在保持每个人公平竞争的同时,应付所有这些变化肯定需要更多的工作,但我们坚信博弈论必将发挥巨大作用

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/BigDataDigest/article/details/105365601

智能推荐

生活垃圾数据集(YOLO版)_垃圾回收数据集-程序员宅基地

文章浏览阅读1.6k次,点赞5次,收藏20次。【有害垃圾】:电池(1 号、2 号、5 号)、过期药品或内包装等;【可回收垃圾】:易拉罐、小号矿泉水瓶;【厨余垃圾】:小土豆、切过的白萝卜、胡萝卜,尺寸为电池大小;【其他垃圾】:瓷片、鹅卵石(小土豆大小)、砖块等。文件结构|----classes.txt # 标签种类|----data-txt\ # 数据集文件集合|----images\ # 数据集图片|----labels\ # yolo标签。_垃圾回收数据集

天气系统3------微服务_cityid=101280803-程序员宅基地

文章浏览阅读272次。之前写到 通过封装的API 已经可以做到使用redis进行缓存天气信息但是这一操作每次都由客户使用时才进行更新 不友好 所以应该自己实现半小时的定时存入redis 使用quartz框架 首先添加依赖build.gradle中// Quartz compile('org.springframework.boot:spring-boot-starter-quartz'..._cityid=101280803

python wxpython 不同Frame 之间的参数传递_wxpython frame.bind-程序员宅基地

文章浏览阅读1.8k次,点赞2次,收藏8次。对于使用触发事件来反应的按钮传递参数如下:可以通过lambda对function的参数传递:t.Bind(wx.EVT_BUTTON, lambda x, textctrl=t: self.input_fun(event=x, textctrl=textctrl))前提需要self.input_fun(self,event,t):传入参数而同时两个Frame之间的参数传..._wxpython frame.bind

cocos小游戏开发总结-程序员宅基地

文章浏览阅读1.9k次。最近接到一个任务要开发消消乐小游戏,当然首先就想到乐cocosCreator来作为开发工具。开发本身倒没有多少难点。消消乐的开发官网发行的书上有专门讲到。下面主要总结一下开发中遇到的问题以及解决方法屏幕适配由于设计尺寸是750*1336,如果适应高度,则在iphonX下,内容会超出屏幕宽度。按宽适应,iphon4下内容会超出屏幕高度。所以就需要根据屏幕比例来动态设置适配策略。 onLoad..._750*1336

ssm435银行贷款管理系统+vue_vue3重构信贷管理系统-程序员宅基地

文章浏览阅读745次,点赞21次,收藏21次。web项目的框架,通常更简单的数据源。21世纪的今天,随着社会的不断发展与进步,人们对于信息科学化的认识,已由低层次向高层次发展,由原来的感性认识向理性认识提高,管理工作的重要性已逐渐被人们所认识,科学化的管理,使信息存储达到准确、快速、完善,并能提高工作管理效率,促进其发展。论文主要是对银行贷款管理系统进行了介绍,包括研究的现状,还有涉及的开发背景,然后还对系统的设计目标进行了论述,还有系统的需求,以及整个的设计方案,对系统的设计以及实现,也都论述的比较细致,最后对银行贷款管理系统进行了一些具体测试。_vue3重构信贷管理系统

乌龟棋 题解-程序员宅基地

文章浏览阅读774次。题目描述原题目戳这里小明过生日的时候,爸爸送给他一副乌龟棋当作礼物。乌龟棋的棋盘是一行 NNN 个格子,每个格子上一个分数(非负整数)。棋盘第 111 格是唯一的起点,第 NNN 格是终点,游戏要求玩家控制一个乌龟棋子从起点出发走到终点。乌龟棋中 MMM 张爬行卡片,分成 444 种不同的类型( MMM 张卡片中不一定包含所有 444 种类型的卡片,见样例),每种类型的卡片上分别标有 1,2,3,41, 2, 3, 41,2,3,4 四个数字之一,表示使用这种卡片后,乌龟棋子将向前爬行相应的格子数

随便推点

python内存泄露的原因_Python服务端内存泄露的处理过程-程序员宅基地

文章浏览阅读1.5k次。吐槽内存泄露 ? 内存暴涨 ? OOM ?首先提一下我自己曾经历过多次内存泄露,到底有几次? 我自己心里悲伤的回想了下,造成线上影响的内存泄露事件有将近5次了,没上线就查出内存暴涨次数可能更多。这次不是最惨,相信也不会是最后的内存的泄露。有人说,内存泄露对于程序员来说,是个好事,也是个坏事。 怎么说? 好事在于,技术又有所长进,经验有所心得…. 毕竟不是所有程序员都写过OOM的服务…. 坏事..._python内存泄露

Sensor (draft)_draft sensor-程序员宅基地

文章浏览阅读747次。1.sensor typeTYPE_ACCELEROMETER=1 TYPE_MAGNETIC_FIELD=2 (what's value mean at x and z axis)TYPE_ORIENTATION=3TYPE_GYROSCOPE=4 TYPE_LIGHT=5(in )TYPE_PRESSURE=6TYPE_TEMPERATURE=7TYPE_PRO_draft sensor

【刘庆源码共享】稀疏线性系统求解算法MGMRES(m) 之 矩阵类定义三(C++)_gmres不构造矩阵-程序员宅基地

文章浏览阅读581次。/* * Copyright (c) 2009 湖南师范大学数计院 一心飞翔项目组 * All Right Reserved * * 文件名:matrix.cpp 定义Point、Node、Matrix类的各个方法 * 摘 要:定义矩阵类,包括矩阵的相关信息和方法 * * 作 者:刘 庆 * 修改日期:2009年7月19日21:15:12 **/

三分钟带你看完HTML5增强的【iframe元素】_iframe allow-top-navigation-程序员宅基地

文章浏览阅读1.7w次,点赞6次,收藏20次。HTML不再推荐页面中使用框架集,因此HTML5删除了<frameset>、<frame>和<noframes>这三个元素。不过HTML5还保留了<iframe>元素,该元素可以在普通的HTML页面中使用,生成一个行内框架,可以直接放在HTML页面的任意位置。除了指定id、class和style之外,还可以指定如下属性:src 指定一个UR..._iframe allow-top-navigation

Java之 Spring Cloud 微服务的链路追踪 Sleuth 和 Zipkin(第三个阶段)【三】【SpringBoot项目实现商品服务器端是调用】-程序员宅基地

文章浏览阅读785次,点赞29次,收藏12次。Zipkin 是 Twitter 的一个开源项目,它基于 Google Dapper 实现,它致力于收集服务的定时数据,以解决微服务架构中的延迟问题,包括数据的收集、存储、查找和展现。我们可以使用它来收集各个服务器上请求链路的跟踪数据,并通过它提供的 REST API 接口来辅助我们查询跟踪数据以实现对分布式系统的监控程序,从而及时地发现系统中出现的延迟升高问题并找出系统性能瓶颈的根源。除了面向开发的 API 接口之外,它也提供了方便的 UI 组件来帮助我们直观的搜索跟踪信息和分析请求链路明细,

烁博科技|浅谈视频安全监控行业发展_2018年8月由于某知名视频监控厂商多款摄像机存在安全漏洞-程序员宅基地

文章浏览阅读358次。“随着天网工程的建设,中国已经建成世界上规模最大的视频监控网,摄像头总 数超过2000万个,成为世界上最安全的国家。视频图像及配套数据已经应用在反恐维稳、治安防控、侦查破案、交通行政管理、服务民生等各行业各领域。烁博科技视频安全核心能力:精准智能数据采集能力:在建设之初即以应用需求为导向,开展点位选择、设备选型等布建工作,实现前端采集设备的精细化部署。随需而动的AI数据挖掘能力:让AI所需要的算力、算法、数据、服务都在应用需求的牵引下实现合理的调度,实现解析能力的最大化。完善的数据治理能力:面_2018年8月由于某知名视频监控厂商多款摄像机存在安全漏洞