点击解锁VIP可享全站免费下载 零基础搭建绿幕直播间卖货赚钱 闪豚AI训练★批量生成原创好文章 本广告位待租本广告位待租待租
点击解锁VIP可享全站免费下载 零基础搭建绿幕直播间卖货赚钱 高质量SEO原创文章生成☆过AI检测 本广告位待租本广告位待租待租
点击解锁VIP可享全站免费下载 零基础搭建绿幕直播间卖货赚钱 NLP原创SEO文章AI自动生成教学 本广告位待租本广告位待租待租

温馨提示:需广告位请联系广告商务经理

十多年ML系统SRE经验,Google练出4大ML可靠性战略

Google在2003年首创了第一个SRE(Site Reliability Engineering,服务可靠性工程)团队,通过系统架构设计、运维流程改善等各种做法,来确保系统运行的更可靠。2014年,Google公开了这套SRE方法论和经验,后来也成了许多企业运维自家网站和线上服务可靠性的重要参考。

如何最有效关注系统的变动,Google建议,任googleplay安卓版下载何系统都会有带有业务逻辑的二进制文件,不管是,特征google中国处理,模型训练,或推论服务等,都会用到二进制档,因此,可以验证这些二进制档来确保是否顺利运行,另一个可google商店以关注变动的地方是系统配置档的变动。例如像是资料ScheGooglema配置google服务框架,不同阶段的各种配置。Google还会关注google谷歌搜索主页另外一种变动,就是资料变动,从原始资料变动,特征资料更新的脧中google,模型表征的变动,推论资料的产生等。图片来源/Ggoogle网站登录入口oogle

ML SRE关键策略3:更清楚掌握google中国对资料完整性的要求

另外,创建模型后,在正式上线之前,Googlegoogle中国会先用测试资料来了解模型的性能,或是在准备好特征资料后,先筛选出异常资料,google网站登录入口避免对模型训练产生影响。Mary McGlohon表示,对特征资料越熟悉,就越能这样事先过滤,而且不能单靠资料异常检查,还是需要搭配对配置档和二进制档异动检查,来确保ML环境准备正常,也才能避免坏资料产生问题。

如何分辨哪些资料是异常资料google翻译,就得对资料完整性的要求,清楚了解送入ML系统的资googleplay料是否符合训练所需,而且能准时google翻译送达。

googleplay其,很多外部问题会影响资料品质,例如标记出google谷歌搜索主页错,数据源在不同时googleplay安卓版下载来自google商店不同地方,资料googleplay安卓版下载处理流程在第三google浏览器方,甚至可能无法监控资料来发生了什么事。Google SRgoogle商店E会要google中国求,组织内部资料负责窗口googleplay安卓版下载,有任何资料需求的调整,也得通知SRgoogle服务框架E。

另一个做法是简化Mgoogle网站登录入口L,避免坏资料带来长期的影响,也可以创建系统回复机制。例google网站登录入口如遇到资料错误,或不完整的googlGooglee资料,Google训练出了有问题的模型,若有回复机制,google翻译就可以回到一个安全不容易出错的模型快照版本

MLgoogleplay SRE关键策略4:妥善管理工作流程的等待任务

Gogooglegoogle中国浏览器ogle ML SRE最后一项关键策略是ML工作流google浏览器程优化,因为经常有大量工作流程同时进行,重载会是常google谷歌搜索主页见问题,一旦流程宕机,或者资料晚到,就得有弹性来应对,因此,Mary McGlohogoogleplay安卓版下载n表示,需要创建流程google翻译退回机制,另google网站登录入口外要有工作量优先级机制,才知道哪一项任务可以延后,最后要让调度机制更聪明,例如可以针对系google商店google浏览器备援来进行资源调度,一旦遇google谷歌搜索主页到宕机google中国时就可以google浏览器采用。

Google ML SRE最后一项关googleplay键策略是ML工作流程优化,因为经常有大量工作流程同时进行,重载会是常见问题,一旦流程宕机,或者资料google中国晚到,就倒有弹性来应对,因此,Google建议,需要创建流程google翻译退回机制,另外要有工作量优先级机制,才知道哪一项任务可以延后,最后要让调度机制更聪明,例如针对系统备援来进行资源调度,一旦遇到宕机时就可以采用。图片来源/Google

ML SREgoogleplay安卓版下载和SRE有两大挑战不一样

Todd Underwood指出,ML SRE特别跟其他SRE做法,有两件事不一样。第一是,新模型和新团队需要很大的弹googleplay安卓版下载性,可能有各种技术考google服务框架量,googleplay安卓版下载业务需求,或资料限制,必须调整模型。googleplay

因为需要可以定制化的模型架Google构,容易增加新功能,超快速部署,负责团队能快速修改问题直接执行模型来更新,google网站登录入口也就是说,Toddgoogle翻译 Underwood表示,ML系统google翻译,希望能够尽快正式上google中国线,这意味着,google网站登录入口机器学习训练要高可用,googleplay容量分派自动化,调度自动化,SRE自动支持等。但是,要具备高度弹性,也代表了不容易标准化,这是第一google翻译个挑战。

第二个不一样之处是,ML SRE的另一个挑战google是“模型品质”,Todd Underwood指出,尤其要思考该如何对模型品质负责。Google常见做法是由模型开发者来确保模googleplay安卓版下载型品质,但在ML模型上线之后,很多问题是来自系统性问题,而非模型google网站登录入口的问题,只靠模型开发ggoogle商店oogle谷googleplay安卓版下载歌搜索主页者解决不了问题。

“如google翻译何对模型品质负责,这是一个还没google网站登录入口有答案的ML SRE大google商店问题,这真的是一个非常难解的问题。”Todd Underwoogoogleplay安卓版下载d强调。

为了解googleplay决这个模型品质问题google网站登录入口,Google正在思考的做法是,创建升级检查清单,也就是可google商店以检查一个ML模Google型是否能从实验状态,进入到正式上线状态的检查清单。这个挑战也就是要定义一个模型的服务水准目标(SLO),关键是“如何判断,一个模型可以正常运行google翻译。”Toddgoogle服务框架 Underwood说。

目前,Google有几项定义“模型正常运行”的角度,例如Google资料是否不完整,过大,过小,或者会出现不同版本。训练速google服务google谷歌搜索主页框架度太慢,或容易卡住。或是训练过google浏览器程太消耗资源google、模型品质突然改变(准确度下滑)、服务无法加载模型、模型加载服务后变慢等。

Todd Underwood说:“这些就是我们会设立指标的地方,来测量数据和性能,来判断什么样的模型品质够好,可以升级到正式环境。还会搭配google翻译其他指标如Model元数据是否完整google商店,和其他模型的依赖性检查等。

下一步,Google MGoogleL SRE想要googleplay安卓版下载做到5件事,Todd Underwood分享,一方面说服组织使用稍旧的google商店ML技术但搭google配可以自动化建模的做法,够用就好的ML,不是用最googoogleplaygle新技术。

其次,要打造一个Google兼顾各种google浏览器功能和稳定性的端到端平台,googleplay安卓版下载但要把这些功能尽量背景化,希望做到,一个按钮就可以完成。

Todd Underwood也希望大幅降低训练成本,google服务框架并且把各种ML服Google务变成API,Google可以稳定且方便集成到各种应用中,让ML无所不在,最后则是要创建ML品质评量机制,适用各处而且值得google翻译信任。

“不仅仅是为了省钱,或者只是为了减少丢脸的时刻,避免影响客户,更重要的是,SRE是保证ML创新速度的关键。”谷歌ML SRE团队负责人托德安德伍德(Todd Underwood)去年10月在一年一度的全球SRE会议上发表演讲,他强调这是谷歌早在13年前就开始将SRE经验和知识应用于ML系统的关键原因。

Google在2003年发起了第一个SRE(Site Reliability Engineering,站点可靠性工程)团队,通过系统架构设计、运维流程改进等各种实践,确保系统更加可靠地运行。2014年,谷歌公布了这套SRE方法论和经验,后来成为很多企业维护自己网站和在线服务可靠性的重要参考。

它不仅仅用于确保网站和在线服务的可靠性。13年前,谷歌成功将SRE应用于搜索服务、存储系统和广告资料存储系统的可靠性运维。当时我开始思考SRE是否可以应用于ML系统,并决定从匹兹堡办公室的google商店Gogoogle浏览器ogle Ads质量团队googleplay开始,将其应用于Googlegoogle中国依赖大量机器学习算法的广告推荐google翻译机制。

因为Google关键词广告采用点googleplay安卓版下载击计费,点击定价,MLgoogle网站登录入口模型推荐的广告可以成功吸引访客点击。

托德安德伍德(Todd Underwood)指出,广告系统越稳定,收入也就越稳定,于是他决定开始从这Google个系googleplay统中导入SRE,也就是所谓的“ML SRGoogleE”。托德安德伍德是13年前创立Ads ML SRE团队googleplay安卓版下载的关键人物之一。

托德安google商店德伍德(Todd Ungoogleplayderwood)说,AIgoogle谷歌搜索主页其实google服务框架和ML很不一样。AI是从人和应用需求的角度出发,而ML是让计算机系统能够使用机器学习技术来解决问题。这是一种利用数据训练模型的方法。ML是Agoogle中国I的子集。

托德安德伍德(Todd Underwood)还披露了谷歌使用的ML系统的一般架构,这与大多数企业常见googleplay的ML培训流程google商店没有太大区别。这个ML系统架构包括五个过程,从数据收集、数据准备、模型google服务框架训练、质量控制到推理服务。Gogoogle中国ogle创建了一套模型管理工具和流程调度系google谷歌搜索主页统,专注于模型、特征和数据的元数据。Google还google服务框架google中国别注重数据读取、数据检查、特征数据的分发和变更等数据质量控制。

google中国歌SRE工程师Mary McGlohon是过去四年中负责这个超大规模ML系统运googgoogle浏览器le行和开发的工程师之一。

Mary McGlohon指出,机器学习系统过google服务框架于复杂和庞大,需要构建工具来分析和探索问题。对于ML SRE来说,你可以在不知道所有事情的商业逻辑的情况下做事。

所以Google也自己开发了很多ML SRE工具google网站登录入口,从更大的尺度上观google中国察系统,google翻译google浏览器出各种可能的错误状态,根据过去的错误设计更好的例子。

虽然googleplay谷歌并没有公开这些MLgoogleplay SRE工具,但是玛丽麦克格隆总结了谷歌用来提高ML可靠性的四个SRE策略,这是他们在过去十几google网站登录入口年里保证ML系统可靠ggoogle商店oogle性的google翻译关键秘密。

这四个策略包括,第googleplay一,让失败问题可见,从而知道为什么会出问题。其次,要尽可能对各种事务进行验证,以避免事务导致的错误,明确对数据完整性的要求,最终妥善管理工作流的等待任务。

Mgoogle谷歌搜索主页google浏览器google服务框架ary McGgoogle网站登录入口lohon指google中国出,将ML误认Google为魔术是一种偏见google。对于googgoogle商店leplay安卓版下载关心系统稳定性的工程googleplay安卓版下载师来说,今天的懒惰可能会导致明天的技术债。只有分析MLgoogle服务框架系统的特性,才能知道系统出问题会有什么风险,才能知道如何管理风险。

最大似然系统的特点是大量数据的依googleplay安卓版下载赖性。因为机器学习算法非常强大,可以有效识别信号和噪声,导致不需google商店要筛选或过滤数据google商店,还可以提高gooGooglegleplgoogleplayay安卓版下载预测能力。

即使不需要知道哪些数据源更有价值Google,直接全部导入,也会带来一个后果。你积累的时间越长,数据依赖就会越多,这也是Google MLgoogle网站登录入口系统的一大特点。其次,ML系统实际上是一个庞大的交互流程系统,我们必须知道如何安排这些流程,以便管理风google谷歌搜索主页险。google谷歌搜索主页

最后,ML是一个非常大规模的非典型工作负载。不同的ML批处理操作会有不同的操作和数据I/O需求,这给资源调度带google商店来了很大的挑战。

Google在分析了过去15年数百个ML系统宕机事google翻译件的回顾报告后,也总结出了google商店19种ML系统宕机问题。Mary McGlohonGoogle指出,只有30%的问题来google中国自ML系统的内部问题,如错误的google标记和错误的模型配置,但高达4google翻译0%的问题来自分布式系统的内部问题,如负载平衡错误、数据结构未优化、工作调度错误。

“这个结果告诉我们,ML系统google中国google中国运维可以借鉴其他分布式系统的运维最佳实践。”Mary McGlohon指出,Google谷歌的ML系统是一个分布式、数据密集型和面向流程的系统。我们选择了分布式google谷歌搜索主页系统、数据完整性和工作流优化的最佳实践来降低风google中国险。

ML SRE关键策略1:让失效问题看得见

“你知道,比如

何解决故障之前,google谷歌搜索主页得先知道何google中国时会googleplay安卓版下载故障,看得见故障是google浏览器一件重要的事。google服务框架”Magoogle浏览器ry McGlohon表示。

Google内部有一套协调调度平台,可以googleplay用来设计模型开发流程,可以设置模型配置,并google服务框架提供仪表板来检查模型性能,可以用来观察模型如google中国何运行google翻译

不过,Mary McGlohony则是建议,SRE团google中国队最好可以创建一些模型品质预警通知,通知模型开发者以及系统运google网站登录入Google维人员,一旦模型品质开始下滑,可以在更多用户发现之前,让模型开发者可googleplay以展开行动,退回前一版,google翻译google服务框架赶快开始调查原google浏览器因。

“仪表板是一种降低事故风险的好方法,发google生事故时,要确googleplay保开发这google个模型的核心人员也能观察到系统的信息,他们可以成为解决问题的帮手。”Mary McGlohgoogle服务框架ongoogleplay说。

ML SRE关键策略2:尽可能验证各种异动google

但只靠预警机制还不够,更主动的SRE方法是进一步验google网站登录入口证各种系统上线的变动,可以从二进制档和资料的变动来关注。

如何最有效关注系统的变动,Mary Mgoogle翻译cGlohon建议,任何系googlegoogle中国网站登录入口统都会有带有业务逻辑的二进制文件,不管是,特征处理,模google商店型训练google,或推论服务等,都会googleplay用到二进制档,googleplay安卓版下载因此,可以验证这些二进制档来确保是否顺利运行,另一个可以关googleplay安卓版下载注变动的地方google商店是系统配置档的变动。例如像是资料Schema配置,不同阶google段的各种配置。

关注二进制档和配置档的变动,最好的做法就是创建一个上线前的Staging(准备)阶段和环境,在这个环境中,复制一份正式系统,进行测googleplay安卓版下载试,验证性能googleplay安卓版下载,来确保google服务框架异动的影响符合google谷歌搜索主页预期,googleplay安卓版下载确定没有问题才正式上线。

在Staging阶段较容googoogle谷歌搜索主页gle中国易发现可能导致宕机的错误google中国,但不容易发现性google浏览器google谷歌搜索主页能问题的影响,例如Igoogle商店/O用量,CPUgoogleplay安卓版下载用量,一条工作流程跟大量工作流程同时执行的影响不一样,后者可google商店google商店能导致很多等待的任务,而影响了系统运行。

Google还会关注另外一种变动,就是资料变动,可以从原始资料变动,特征资料更新的脧中,模型表征的变动,推论资料google中国的产生等。“侦测资料本身的异动,是一种防止事故的做法。”Mary McGlohon表示。

如何最有效关注系统的变动,Google建议,任googleplay安卓版下载何系统都会有带有业务逻辑的二进制文件,不管是,特征google中国处理,模型训练,或推论服务等,都会用到二进制档,因此,可以验证这些二进制档来确保是否顺利运行,另一个可google商店以关注变动的地方是系统配置档的变动。例如像是资料ScheGooglema配置google服务框架,不同阶段的各种配置。Google还会关注google谷歌搜索主页另外一种变动,就是资料变动,从原始资料变动,特征资料更新的脧中google,模型表征的变动,推论资料的产生等。图片来源/Ggoogle网站登录入口oogle

ML SRE关键策略3:更清楚掌握google中国对资料完整性的要求

另外,创建模型后,在正式上线之前,Googlegoogle中国会先用测试资料来了解模型的性能,或是在准备好特征资料后,先筛选出异常资料,google网站登录入口避免对模型训练产生影响。Mary McGlohon表示,对特征资料越熟悉,就越能这样事先过滤,而且不能单靠资料异常检查,还是需要搭配对配置档和二进制档异动检查,来确保ML环境准备正常,也才能避免坏资料产生问题。

如何分辨哪些资料是异常资料google翻译,就得对资料完整性的要求,清楚了解送入ML系统的资googleplay料是否符合训练所需,而且能准时google翻译送达。

googleplay其,很多外部问题会影响资料品质,例如标记出google谷歌搜索主页错,数据源在不同时googleplay安卓版下载来自google商店不同地方,资料googleplay安卓版下载处理流程在第三google浏览器方,甚至可能无法监控资料来发生了什么事。Google SRgoogle商店E会要google中国求,组织内部资料负责窗口googleplay安卓版下载,有任何资料需求的调整,也得通知SRgoogle服务框架E。

另一个做法是简化Mgoogle网站登录入口L,避免坏资料带来长期的影响,也可以创建系统回复机制。例google网站登录入口如遇到资料错误,或不完整的googlGooglee资料,Google训练出了有问题的模型,若有回复机制,google翻译就可以回到一个安全不容易出错的模型快照版本

MLgoogleplay SRE关键策略4:妥善管理工作流程的等待任务

Gogooglegoogle中国浏览器ogle ML SRE最后一项关键策略是ML工作流google浏览器程优化,因为经常有大量工作流程同时进行,重载会是常google谷歌搜索主页见问题,一旦流程宕机,或者资料晚到,就得有弹性来应对,因此,Mary McGlohogoogleplay安卓版下载n表示,需要创建流程google翻译退回机制,另google网站登录入口外要有工作量优先级机制,才知道哪一项任务可以延后,最后要让调度机制更聪明,例如可以针对系google商店google浏览器备援来进行资源调度,一旦遇google谷歌搜索主页到宕机google中国时就可以google浏览器采用。

Google ML SRE最后一项关googleplay键策略是ML工作流程优化,因为经常有大量工作流程同时进行,重载会是常见问题,一旦流程宕机,或者资料google中国晚到,就倒有弹性来应对,因此,Google建议,需要创建流程google翻译退回机制,另外要有工作量优先级机制,才知道哪一项任务可以延后,最后要让调度机制更聪明,例如针对系统备援来进行资源调度,一旦遇到宕机时就可以采用。图片来源/Google

ML SREgoogleplay安卓版下载和SRE有两大挑战不一样

Todd Underwood指出,ML SRE特别跟其他SRE做法,有两件事不一样。第一是,新模型和新团队需要很大的弹googleplay安卓版下载性,可能有各种技术考google服务框架量,googleplay安卓版下载业务需求,或资料限制,必须调整模型。googleplay

因为需要可以定制化的模型架Google构,容易增加新功能,超快速部署,负责团队能快速修改问题直接执行模型来更新,google网站登录入口也就是说,Toddgoogle翻译 Underwood表示,ML系统google翻译,希望能够尽快正式上google中国线,这意味着,google网站登录入口机器学习训练要高可用,googleplay容量分派自动化,调度自动化,SRE自动支持等。但是,要具备高度弹性,也代表了不容易标准化,这是第一google翻译个挑战。

第二个不一样之处是,ML SRE的另一个挑战google是“模型品质”,Todd Underwood指出,尤其要思考该如何对模型品质负责。Google常见做法是由模型开发者来确保模googleplay安卓版下载型品质,但在ML模型上线之后,很多问题是来自系统性问题,而非模型google网站登录入口的问题,只靠模型开发ggoogle商店oogle谷googleplay安卓版下载歌搜索主页者解决不了问题。

“如google翻译何对模型品质负责,这是一个还没google网站登录入口有答案的ML SRE大google商店问题,这真的是一个非常难解的问题。”Todd Underwoogoogleplay安卓版下载d强调。

为了解googleplay决这个模型品质问题google网站登录入口,Google正在思考的做法是,创建升级检查清单,也就是可google商店以检查一个ML模Google型是否能从实验状态,进入到正式上线状态的检查清单。这个挑战也就是要定义一个模型的服务水准目标(SLO),关键是“如何判断,一个模型可以正常运行google翻译。”Toddgoogle服务框架 Underwood说。

目前,Google有几项定义“模型正常运行”的角度,例如Google资料是否不完整,过大,过小,或者会出现不同版本。训练速google服务google谷歌搜索主页框架度太慢,或容易卡住。或是训练过google浏览器程太消耗资源google、模型品质突然改变(准确度下滑)、服务无法加载模型、模型加载服务后变慢等。

Todd Underwood说:“这些就是我们会设立指标的地方,来测量数据和性能,来判断什么样的模型品质够好,可以升级到正式环境。还会搭配google翻译其他指标如Model元数据是否完整google商店,和其他模型的依赖性检查等。

下一步,Google MGoogleL SRE想要googleplay安卓版下载做到5件事,Todd Underwood分享,一方面说服组织使用稍旧的google商店ML技术但搭google配可以自动化建模的做法,够用就好的ML,不是用最googoogleplaygle新技术。

其次,要打造一个Google兼顾各种google浏览器功能和稳定性的端到端平台,googleplay安卓版下载但要把这些功能尽量背景化,希望做到,一个按钮就可以完成。

Todd Underwood也希望大幅降低训练成本,google服务框架并且把各种ML服Google务变成API,Google可以稳定且方便集成到各种应用中,让ML无所不在,最后则是要创建ML品质评量机制,适用各处而且值得google翻译信任。

“不仅仅是为了省钱,或者只是为了减少丢脸的时刻,避免影响客户,更重要的是,SRE是保证ML创新速度的关键。”谷歌ML SRE团队负责人托德安德伍德(Todd Underwood)去年10月在一年一度的全球SRE会议上发表演讲,他强调这是谷歌早在13年前就开始将SRE经验和知识应用于ML系统的关键原因。

Google在2003年发起了第一个SRE(Site Reliability Engineering,站点可靠性工程)团队,通过系统架构设计、运维流程改进等各种实践,确保系统更加可靠地运行。2014年,谷歌公布了这套SRE方法论和经验,后来成为很多企业维护自己网站和在线服务可靠性的重要参考。

它不仅仅用于确保网站和在线服务的可靠性。13年前,谷歌成功将SRE应用于搜索服务、存储系统和广告资料存储系统的可靠性运维。当时我开始思考SRE是否可以应用于ML系统,并决定从匹兹堡办公室的google商店Gogoogle浏览器ogle Ads质量团队googleplay开始,将其应用于Googlegoogle中国依赖大量机器学习算法的广告推荐google翻译机制。

因为Google关键词广告采用点googleplay安卓版下载击计费,点击定价,MLgoogle网站登录入口模型推荐的广告可以成功吸引访客点击。

托德安德伍德(Todd Underwood)指出,广告系统越稳定,收入也就越稳定,于是他决定开始从这Google个系googleplay统中导入SRE,也就是所谓的“ML SRGoogleE”。托德安德伍德是13年前创立Ads ML SRE团队googleplay安卓版下载的关键人物之一。

托德安google商店德伍德(Todd Ungoogleplayderwood)说,AIgoogle谷歌搜索主页其实google服务框架和ML很不一样。AI是从人和应用需求的角度出发,而ML是让计算机系统能够使用机器学习技术来解决问题。这是一种利用数据训练模型的方法。ML是Agoogle中国I的子集。

托德安德伍德(Todd Underwood)还披露了谷歌使用的ML系统的一般架构,这与大多数企业常见googleplay的ML培训流程google商店没有太大区别。这个ML系统架构包括五个过程,从数据收集、数据准备、模型google服务框架训练、质量控制到推理服务。Gogoogle中国ogle创建了一套模型管理工具和流程调度系google谷歌搜索主页统,专注于模型、特征和数据的元数据。Google还google服务框架google中国别注重数据读取、数据检查、特征数据的分发和变更等数据质量控制。

google中国歌SRE工程师Mary McGlohon是过去四年中负责这个超大规模ML系统运googgoogle浏览器le行和开发的工程师之一。

Mary McGlohon指出,机器学习系统过google服务框架于复杂和庞大,需要构建工具来分析和探索问题。对于ML SRE来说,你可以在不知道所有事情的商业逻辑的情况下做事。

所以Google也自己开发了很多ML SRE工具google网站登录入口,从更大的尺度上观google中国察系统,google翻译google浏览器出各种可能的错误状态,根据过去的错误设计更好的例子。

虽然googleplay谷歌并没有公开这些MLgoogleplay SRE工具,但是玛丽麦克格隆总结了谷歌用来提高ML可靠性的四个SRE策略,这是他们在过去十几google网站登录入口年里保证ML系统可靠ggoogle商店oogle性的google翻译关键秘密。

这四个策略包括,第googleplay一,让失败问题可见,从而知道为什么会出问题。其次,要尽可能对各种事务进行验证,以避免事务导致的错误,明确对数据完整性的要求,最终妥善管理工作流的等待任务。

Mgoogle谷歌搜索主页google浏览器google服务框架ary McGgoogle网站登录入口lohon指google中国出,将ML误认Google为魔术是一种偏见google。对于googgoogle商店leplay安卓版下载关心系统稳定性的工程googleplay安卓版下载师来说,今天的懒惰可能会导致明天的技术债。只有分析MLgoogle服务框架系统的特性,才能知道系统出问题会有什么风险,才能知道如何管理风险。

最大似然系统的特点是大量数据的依googleplay安卓版下载赖性。因为机器学习算法非常强大,可以有效识别信号和噪声,导致不需google商店要筛选或过滤数据google商店,还可以提高gooGooglegleplgoogleplayay安卓版下载预测能力。

即使不需要知道哪些数据源更有价值Google,直接全部导入,也会带来一个后果。你积累的时间越长,数据依赖就会越多,这也是Google MLgoogle网站登录入口系统的一大特点。其次,ML系统实际上是一个庞大的交互流程系统,我们必须知道如何安排这些流程,以便管理风google谷歌搜索主页险。google谷歌搜索主页

最后,ML是一个非常大规模的非典型工作负载。不同的ML批处理操作会有不同的操作和数据I/O需求,这给资源调度带google商店来了很大的挑战。

Google在分析了过去15年数百个ML系统宕机事google翻译件的回顾报告后,也总结出了google商店19种ML系统宕机问题。Mary McGlohonGoogle指出,只有30%的问题来google中国自ML系统的内部问题,如错误的google标记和错误的模型配置,但高达4google翻译0%的问题来自分布式系统的内部问题,如负载平衡错误、数据结构未优化、工作调度错误。

“这个结果告诉我们,ML系统google中国google中国运维可以借鉴其他分布式系统的运维最佳实践。”Mary McGlohon指出,Google谷歌的ML系统是一个分布式、数据密集型和面向流程的系统。我们选择了分布式google谷歌搜索主页系统、数据完整性和工作流优化的最佳实践来降低风google中国险。

ML SRE关键策略1:让失效问题看得见

“你知道,比如

何解决故障之前,google谷歌搜索主页得先知道何google中国时会googleplay安卓版下载故障,看得见故障是google浏览器一件重要的事。google服务框架”Magoogle浏览器ry McGlohon表示。

Google内部有一套协调调度平台,可以googleplay用来设计模型开发流程,可以设置模型配置,并google服务框架提供仪表板来检查模型性能,可以用来观察模型如google中国何运行google翻译

不过,Mary McGlohony则是建议,SRE团google中国队最好可以创建一些模型品质预警通知,通知模型开发者以及系统运google网站登录入Google维人员,一旦模型品质开始下滑,可以在更多用户发现之前,让模型开发者可googleplay以展开行动,退回前一版,google翻译google服务框架赶快开始调查原google浏览器因。

“仪表板是一种降低事故风险的好方法,发google生事故时,要确googleplay保开发这google个模型的核心人员也能观察到系统的信息,他们可以成为解决问题的帮手。”Mary McGlohgoogle服务框架ongoogleplay说。

ML SRE关键策略2:尽可能验证各种异动google

但只靠预警机制还不够,更主动的SRE方法是进一步验google网站登录入口证各种系统上线的变动,可以从二进制档和资料的变动来关注。

如何最有效关注系统的变动,Mary Mgoogle翻译cGlohon建议,任何系googlegoogle中国网站登录入口统都会有带有业务逻辑的二进制文件,不管是,特征处理,模google商店型训练google,或推论服务等,都会googleplay用到二进制档,googleplay安卓版下载因此,可以验证这些二进制档来确保是否顺利运行,另一个可以关googleplay安卓版下载注变动的地方google商店是系统配置档的变动。例如像是资料Schema配置,不同阶google段的各种配置。

关注二进制档和配置档的变动,最好的做法就是创建一个上线前的Staging(准备)阶段和环境,在这个环境中,复制一份正式系统,进行测googleplay安卓版下载试,验证性能googleplay安卓版下载,来确保google服务框架异动的影响符合google谷歌搜索主页预期,googleplay安卓版下载确定没有问题才正式上线。

在Staging阶段较容googoogle谷歌搜索主页gle中国易发现可能导致宕机的错误google中国,但不容易发现性google浏览器google谷歌搜索主页能问题的影响,例如Igoogle商店/O用量,CPUgoogleplay安卓版下载用量,一条工作流程跟大量工作流程同时执行的影响不一样,后者可google商店google商店能导致很多等待的任务,而影响了系统运行。

Google还会关注另外一种变动,就是资料变动,可以从原始资料变动,特征资料更新的脧中,模型表征的变动,推论资料google中国的产生等。“侦测资料本身的异动,是一种防止事故的做法。”Mary McGlohon表示。

如何最有效关注系统的变动,Google建议,任googleplay安卓版下载何系统都会有带有业务逻辑的二进制文件,不管是,特征google中国处理,模型训练,或推论服务等,都会用到二进制档,因此,可以验证这些二进制档来确保是否顺利运行,另一个可google商店以关注变动的地方是系统配置档的变动。例如像是资料ScheGooglema配置google服务框架,不同阶段的各种配置。Google还会关注google谷歌搜索主页另外一种变动,就是资料变动,从原始资料变动,特征资料更新的脧中google,模型表征的变动,推论资料的产生等。图片来源/Ggoogle网站登录入口oogle

ML SRE关键策略3:更清楚掌握google中国对资料完整性的要求

另外,创建模型后,在正式上线之前,Googlegoogle中国会先用测试资料来了解模型的性能,或是在准备好特征资料后,先筛选出异常资料,google网站登录入口避免对模型训练产生影响。Mary McGlohon表示,对特征资料越熟悉,就越能这样事先过滤,而且不能单靠资料异常检查,还是需要搭配对配置档和二进制档异动检查,来确保ML环境准备正常,也才能避免坏资料产生问题。

如何分辨哪些资料是异常资料google翻译,就得对资料完整性的要求,清楚了解送入ML系统的资googleplay料是否符合训练所需,而且能准时google翻译送达。

googleplay其,很多外部问题会影响资料品质,例如标记出google谷歌搜索主页错,数据源在不同时googleplay安卓版下载来自google商店不同地方,资料googleplay安卓版下载处理流程在第三google浏览器方,甚至可能无法监控资料来发生了什么事。Google SRgoogle商店E会要google中国求,组织内部资料负责窗口googleplay安卓版下载,有任何资料需求的调整,也得通知SRgoogle服务框架E。

另一个做法是简化Mgoogle网站登录入口L,避免坏资料带来长期的影响,也可以创建系统回复机制。例google网站登录入口如遇到资料错误,或不完整的googlGooglee资料,Google训练出了有问题的模型,若有回复机制,google翻译就可以回到一个安全不容易出错的模型快照版本

MLgoogleplay SRE关键策略4:妥善管理工作流程的等待任务

Gogooglegoogle中国浏览器ogle ML SRE最后一项关键策略是ML工作流google浏览器程优化,因为经常有大量工作流程同时进行,重载会是常google谷歌搜索主页见问题,一旦流程宕机,或者资料晚到,就得有弹性来应对,因此,Mary McGlohogoogleplay安卓版下载n表示,需要创建流程google翻译退回机制,另google网站登录入口外要有工作量优先级机制,才知道哪一项任务可以延后,最后要让调度机制更聪明,例如可以针对系google商店google浏览器备援来进行资源调度,一旦遇google谷歌搜索主页到宕机google中国时就可以google浏览器采用。

Google ML SRE最后一项关googleplay键策略是ML工作流程优化,因为经常有大量工作流程同时进行,重载会是常见问题,一旦流程宕机,或者资料google中国晚到,就倒有弹性来应对,因此,Google建议,需要创建流程google翻译退回机制,另外要有工作量优先级机制,才知道哪一项任务可以延后,最后要让调度机制更聪明,例如针对系统备援来进行资源调度,一旦遇到宕机时就可以采用。图片来源/Google

ML SREgoogleplay安卓版下载和SRE有两大挑战不一样

Todd Underwood指出,ML SRE特别跟其他SRE做法,有两件事不一样。第一是,新模型和新团队需要很大的弹googleplay安卓版下载性,可能有各种技术考google服务框架量,googleplay安卓版下载业务需求,或资料限制,必须调整模型。googleplay

因为需要可以定制化的模型架Google构,容易增加新功能,超快速部署,负责团队能快速修改问题直接执行模型来更新,google网站登录入口也就是说,Toddgoogle翻译 Underwood表示,ML系统google翻译,希望能够尽快正式上google中国线,这意味着,google网站登录入口机器学习训练要高可用,googleplay容量分派自动化,调度自动化,SRE自动支持等。但是,要具备高度弹性,也代表了不容易标准化,这是第一google翻译个挑战。

第二个不一样之处是,ML SRE的另一个挑战google是“模型品质”,Todd Underwood指出,尤其要思考该如何对模型品质负责。Google常见做法是由模型开发者来确保模googleplay安卓版下载型品质,但在ML模型上线之后,很多问题是来自系统性问题,而非模型google网站登录入口的问题,只靠模型开发ggoogle商店oogle谷googleplay安卓版下载歌搜索主页者解决不了问题。

“如google翻译何对模型品质负责,这是一个还没google网站登录入口有答案的ML SRE大google商店问题,这真的是一个非常难解的问题。”Todd Underwoogoogleplay安卓版下载d强调。

为了解googleplay决这个模型品质问题google网站登录入口,Google正在思考的做法是,创建升级检查清单,也就是可google商店以检查一个ML模Google型是否能从实验状态,进入到正式上线状态的检查清单。这个挑战也就是要定义一个模型的服务水准目标(SLO),关键是“如何判断,一个模型可以正常运行google翻译。”Toddgoogle服务框架 Underwood说。

目前,Google有几项定义“模型正常运行”的角度,例如Google资料是否不完整,过大,过小,或者会出现不同版本。训练速google服务google谷歌搜索主页框架度太慢,或容易卡住。或是训练过google浏览器程太消耗资源google、模型品质突然改变(准确度下滑)、服务无法加载模型、模型加载服务后变慢等。

Todd Underwood说:“这些就是我们会设立指标的地方,来测量数据和性能,来判断什么样的模型品质够好,可以升级到正式环境。还会搭配google翻译其他指标如Model元数据是否完整google商店,和其他模型的依赖性检查等。

下一步,Google MGoogleL SRE想要googleplay安卓版下载做到5件事,Todd Underwood分享,一方面说服组织使用稍旧的google商店ML技术但搭google配可以自动化建模的做法,够用就好的ML,不是用最googoogleplaygle新技术。

其次,要打造一个Google兼顾各种google浏览器功能和稳定性的端到端平台,googleplay安卓版下载但要把这些功能尽量背景化,希望做到,一个按钮就可以完成。

Todd Underwood也希望大幅降低训练成本,google服务框架并且把各种ML服Google务变成API,Google可以稳定且方便集成到各种应用中,让ML无所不在,最后则是要创建ML品质评量机制,适用各处而且值得google翻译信任。

免责说明

本站资源大多来自网络,如有侵犯你的权益请提交工单反馈(点击进入提交工单) 或给邮箱发送邮件laakan@126.com 我们会第一时间进行审核删除。站内资源为网友个人学习或测试研究使用,未经原版权作者许可,禁止用于任何商业途径!请在下载24小时内删除!

给TA打赏
共{{data.count}}人
人已打赏
!
也想出现在这里? 联系我们
广告信息
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索