聂都乡| 宁园街道| 宁桥路| 青阳镇| 青石路| 破罗口| 庆阳国营林业总场蒿咀铺林场| 岐岭| 沁河镇| 南屯村| 平潭| 七家子乡| 前堡子| 前野厂村| 千山路商业街| 秦川一分厂| 南窑子村| 排岭| 饶阳镇| 秋木乡| 清源街道| 热柯依达乡| 牛梁李村委会| 内蒙古呼盟陈巴旗巴彦库仁镇| 坪水| 诺水河镇| 宁河镇| 埝掌镇| 前欧村| 旗舰凯旋小区| 潘庄社区| 南通中学| 清河小营| 内皮尔| 浦城| 群青村| 亲和乡| 蒲城县| 热力公司| 戚家山| 尼雅乡| 千禧广| 庞泉沟镇| 桥湾| 泥湾市场| 七星井| 区武装部| 潘家镇| 前盆城村委会| 恰库尔图镇| 任各庄镇| 潘特嘎查| 岐城| 前岭街道| 青罕镇| 南苑村| 偏岭镇| 七里山街道| 轻工市场| 庆余新村| 丘坂| 清凉山| 秋林铺村| 青溪镇| 秋溪| 硗碛藏族乡| 青岗集乡| 前张庄村村委会| 七大顷| 牌楼路| 泉塘| 前炒面| 平谷太平庄| 宁兴小区| 秦灶| 平安村五组| 南翔凤| 前铁丘村委会| 邳州铁路小学| 屈家岭管理区| 齐齐哈尔路| 农业银行石狮市支行| 泉上| 平昌道| 七连庄| 清原道| 蓬安| 七贤村| 全胜乡| 清化镇| 牛角沱| 蒲黄榆第三社区| 钦州五中| 清潭| 全程公里| 牛湖村| 努日盖苏木| 屏锦镇| 汽车西部| 洽舍乡| 蒲州| 坪林| 牛角峪村| 内昆都伦区| 牛城乡| 仁恒翠竹园| 齐齐哈尔路| 南新街街道| 曲雅贡乡| 青峰| 企沙镇| 农作乡| 漆树坝乡| 毗罗镇| 仁怀里| 启明街道| 乔端镇| 郫县政府广场| 青阳街道| 普乐道| 乾务镇| 聂家村乡| 七股半村| 仁川| 潘祠| 七星镇| 南竹杆胡同| 七农场| 青富乡| 阙店乡| 农八师一三六团| 前水峪| 青莲镇| 黔江小南海| 任堤口村委会| 鸥江公寓| 盆儿胡同| 南嘴镇| 年都乎乡| 宁波公交站点一览| 农业试验站| 琼山| 庆安县| 前寨府村| 七塔寺| 浦东新区| 农科社区| 念头| 栖霞县| 凭信乡| 清水镇政府| 桥头铺镇| 七厂什字| 聂都乡| 平子镇| 南腰界乡| 前进新村| 鹏欣丽都| 曲阜西路| 平原| 秦陵街道| 盘山道松风东里| 前哨农场| 南瑶| 平武县| 权寨镇| 磻溪| 宁双村| 南小区| 群力胡同| 暖阁| 彭厝寮| 葡萄镇| 琵琶镇| 南翼街道| 牛筋面| 磐石镇| 鹏欣丽都| 平谷黎各庄| 前北岸| 启文| 七里河镇| 气象台路| 弄弄坪街道| 庞家乡| 乔口镇| 启浪乡| 平马镇| 农佳村| 千户村| 浦河| 仁恒玉兰山庄| 青杨沟| 挪威| 钦州南路桂林路| 七星泡农场| 潘庄农场虚拟镇| 南投| 浦兴路街道| 宁州镇| 前双庙村委会| 潘坑乡| 千阳| 南翼街道| 排吾乡| 前范庄村委会| 宁波道宁波里| 千峰街道| 泉秀办事处| 圈门里居委会| 平水开发区| 庆阳农场| 桥仔头上村| 南王庄乡| 青石岭村| 鸟石隆| 青岛街道| 南亚医院| 农科所| 牌楼乡| 彭水电站库区风景区| 前杨楼村委会| 秦洪桥| 前桃洼村| 千佛林| 启东寅兴垦区| 齐天镇| 屏西南门| 排仔面| 人定湖西里社区| 曲江路| 前街村村委会| 坪庄乡| 内引外连| 清内| 气象局| 农四师七十五团场| 仁皇山庄| 前群村| 坪地镇| 曲水县| 坡上村| 曲线街道| 内坑镇| 鹏峰村| 前石窝| 南坛村| 坪石子| 埔尾村| 樵店乡| 南郚| 欧公坡| 七队| 前芳嘉园胡同| 庆云楼| 青都乡| 青云店镇开发区| 青云店东站| 牛根地| 青纳乡| 清溪街道| 全兴路中| 任家院子| 南邢郭乡| 群利镇| 庆园桥| 勤俭道红勤| 乔甸镇| 七星园北社区| 杞城东村| 蓬莱| 群联| 畦洲| 牛心台街道| 百度

驻省卫计委纪检组:以规则为尺子 强化监督执纪

2018-09-21 20:03 来源:爱丽婚嫁网

  驻省卫计委纪检组:以规则为尺子 强化监督执纪

  百度一起逛街、吃饭、旅游、美容在日本老龄女性中也越来越流行。癌症是一种慢性疾病回顾历史,癌症至少存在了几千年,但真正的研究仅有100多年,现代治疗不过几十年发展史。

孙宏艳表示,相较于一时的学习成绩好坏,健康会影响孩子的一生,建议将学生健康情况纳入学校考核指标。比胰腺癌更容易让人忽视的是急性胰腺炎。

  当下,我国青少年存在营养不良、营养过剩两极分化现象。中西合作计划旨在携手领军世界的西班牙各领域的佼佼者,为中国提供西班牙的丰富资源和价值,支持一带一路、中国制造2025等中国政府项目以及中国社会的发展,满足中国的需求,使中国企业受益,促进中西两国长期互惠互利的文化和经济交流。

  同样该车也将于2020年上市,剑指特斯拉ModelS。中西合作计划负责人霍天杰先生在会议上用中文发言并表示:西班牙十分钦佩和尊重中国的文化、历史和取得的经济发展,这一切都要归功于中国政府的领导以及中国人民的艰苦努力和坚定意志。

51岁的英国人尼基·戴维斯今年3月被诊断患有胰腺癌。

  3月17日,刘园长等人约项女士去一家西餐厅见面协商此事。

  马思纯和周冬雨  俩人的闺蜜情可以说好的让人羡慕了,私下的画风也是随便怼来怼去。▲(生命时报记者鲍捷)

  杨萍表示,患上难以治愈的慢性疾病或癌症,会让老年人产生生命不可控的感觉,安全感消失,对死亡的恐惧感增加。

  他认为,药价虚高的根源在于公医体制。  【环球网综合报道】据英国媒体3月21日消息,日前特斯拉股东已同意授予CEO埃隆马斯克(ElonMusk)高达26亿美元(约人民币亿元)的股份奖励方案。

      在宝马年度财经新闻发布会上,董事长哈拉德科鲁格(HaraldKruger)承诺ix3将在2020年上市。

  百度五大问题不容忽视很多慢性病的形成都可以追溯到儿童时期。

  霍天杰先生总结道,西班牙应是支持中国在西方发展的战略盟友。促进健康是政府应承担的责任,也是关乎每个公民的大事。

  百度 百度 百度

  驻省卫计委纪检组:以规则为尺子 强化监督执纪

 
责编:
炼数成金 门户 大数据 Spark 查看内容

驻省卫计委纪检组:以规则为尺子 强化监督执纪

百度 宋茜演绎春季T恤+外套搭配Look  宋茜用飞行员夹克内搭字母T,红色系已经足够抢眼,胸口的字母增加几分细节。

2017-8-11 21:51| 发布者: 炼数成金_小数| 查看: 24284| 评论: 0|原作者: Tony Xing|来自: 壹佰案例

摘要: 本案例介绍了微软大数据平台团队设计和部署的基于开源技术(Kafka、Spark、ElasticsSearch、Kibana)的大数据质量监控平台,这个平台具有实时、高可用、可扩展、高度可信的特性,成为微软Bing、Office365、Skype等年 ...

算法 大数据 架构 Spark 微软 数据处理

导读:微软的ASG (应用与服务集团)包含Bing,、Office,、Skype。每天产生多达5 PB以上数据,如何构建一个高扩展性的data audit服务来保证这样量级的数据完整性和实时性非常具有挑战性。本文将介绍微软ASG大数据团队如何利用Kafka、Spark以及Elasticsearch来解决这个问题。


案例简介 
本案例介绍了微软大数据平台团队设计和部署的基于开源技术(Kafka、Spark、ElasticsSearch、Kibana)的大数据质量监控平台,这个平台具有实时、高可用、可扩展、高度可信的特性,成为微软Bing、Office365、Skype等年收入270+亿美元的业务在监控数据质量方面的可靠技术保障。

同时,基于业务需要,我们在设计和实现中达成下面一系列的目标:

监控流式数据的完整性与时延;
需要监控的数据管道(pipeline)具有多个数据生产者、多处理阶段、多数据消费者的特性;
数据质量的监控需要近实时(near real time);
数据质量发生问题的时候,需要提供相应的诊断信息来帮助工程师迅速解决问题;
监控平台的服务本身需要超级稳定和高可用, 大于99.9%在线时间;
监控与审计本身是高度可信;
平台架构可以水平扩展 (Scale out)。

背景及问题引入 
为了服务微软的Bing、Office 365以及Skype业务,我们的大数据平台需要处理每天高达十几PB级别的海量大数据,所有的数据分析、报表、洞见以及A/B测试都依赖于高质量的数据,如果数据质量不高的话,依赖数据做决策的业务都会受到严重影响。

与此同时,微软业务对于实时数据处理的需求也日益增加,以前监控批处理数据(batch data)的很多解决方案已经不再适用于实时的流式数据的质量监控。

在另外一个层面,基于历史原因,各个业务集团往往使用不同的技术、工具来做数据处理,怎么整合这样异构的技术、工具以及在此之上的数据质量监控也是一个急需解决的问题。

图1是我们数据处理平台的一个概念性架构。从数据生产者这端,我们通过在客户端以及服务端使用通用的SDK,按照通用的schema来产生数据,数据通过分布在全世界的数据收集服务(collectors)来分发到相应的Kafka, 然后通过pub/sub模式由各种各样的计算以及存储框架来订阅。

这样各种团队就可以选择他们最熟悉或者一直以来使用的工具来做处理。例如,从实时处理的角度,各个业务团队可以选用比如Spark或者微软的USQL streaming处理框架,以及其他第三方的工具来做一些特定场景的分析,比如日志分析的Splunk、交互式分析的Interana等。在批处理框架上,用户可以选用开源社区的Hadoop,、Spark或者微软的Cosmos等。


图1: 整合各个业务集团的异构数据系统的架构
 

图2:快速增长的实时数据
 
如图2所示,我们在迁移大数据到图1架构的过程中,也看到实时流式数据的快速增长。每天峰值消息高达一万亿个以上,每秒处理一百三十万个消息, 每天处理3.5PB流式数据。

数据监控的场景以及工作原理 

3.1数据监控场景
基于业务需求,我们总结概括了需要被监控的数据处理管道特性(如图3)

多数据生产者(multiple data producers),数据来自客户端和服务端;
多个数据消费者(multiple data consumers),这里特指各种数据处理框架;
多数据监控阶段(multiple stages),从数据产生到数据处理,数据往往流经多个数据管道的组件,我们需要通过监控确保每个阶段数据都不会发生丢失、高时延、以及异常。

图3: 多数据生产者、多阶段、多数据消费者的数据管道
 
3.2工作原理
基于图3的数据管道,我们把问题具体化为如何确保基于Kafka的数据管道上下游的数据完整性、实时性、数据异常的监测。图4是一个抽象化的监控架构以及工作原理。

蓝色组件是数据管道里数据流经的各个处理阶段;绿色组件是本文中实时数据质量监控的核心服务Audit Trail。在数据流经各个组件的同时,相应的审计(audit)数据也会同时发到Audit Trail, 这个审计数据可以看作是一种元数据(meta data),它包含关于数据流的信息,例如该消息是在哪个数据中心、哪台机器产生;该消息包含几条记录、大小、时间戳等。Audit Trail汇总了各个数据处理组件发来的元数据后,就可以实时做各种数据质量的评估,比如数据在此时刻的完整性如何、实时性如何、有无异常。

图4:数据流与监控流,监控流实时汇总到Audit Trail
 
基于图5的审计元数据,一旦发生数据质量问题,工程师可以快速定位是哪个数据中心的哪台服务器在什么时间段发生了问题,然后快速采取相应行动来解决或缓解问题,并把对下游数据处理的影响降到较低。

图5: 审计元数据的结构
 
可被监控的数据质量问题可以分为如下几类:

数据时延超出规定的SLA (service level agreement)
工程师可以通过如图6所示的时延状态图快速了解在数据质量时延这个维度是否正常,这对于对实时性要求比较严格的数据产品及应用非常重要,如果数据延迟到来,很多时候就失去了意义。

需要注意的是,图表在这里起到的只是辅助作用,在真正的生产环境中是通过系统API调用来定期检查SLA的符合情况,一旦超出时延阈值,会通过电话、短信等手段通知值班的工程师来实时解决问题。


图6:简单时延柱状图
 
数据在移动中发生丢失导致完整性不满足SLA (service level agreement)

工程师可以通过图7中所示简单图表来了解数据完整性的状态,图7所示包含两个数据处理阶段:一个数据生产者和两个数据消费者的应用案例。所以图表中实际上是三条线,绿色是生产者的实时数据量,蓝色和紫色线是两个数据消费者处理的数据量。如果在理想情况下,数据完整性没有问题,这三条线是完全重合。本例中在最后一个点出现了分叉,代表数据完整性出现问题,需要工程师进行干预。
 

图7:简单完整性图表

数据本身发生异常-通过异常检测来实时监控
数据本身发生异常,我们由相应的基于统计元数据的异常检测(如图8)来做实时监控。异常检测是一个在工业界非常普遍的问题和挑战,几乎每个互联网公司都会有做异常检测的服务或平台,但是做好很不容易,这是一个可以单独写一篇文章的大题目,这里只是单辟一个章节做简单的算法介绍。

图8:基于审计数据的异常检测
 
本例是通过对于数据量的异常检测来发现上游写log问题,或者其他数据生产的逻辑问题。

3.3异常检测
异常检测算法1


图 9 Holt-Winters算法

我们采用了Holt-Winters算法(图9)来训练模型和做预测,并在此之上做了很多改进来增加算法的强健性和容错能力。

强健性上的改进包括:
使用Median Absolute Deviation (MAD) 得到更好的估值;
处理数据丢点和噪声 (例如数据平滑)。
功能上的改进包括:
自动获取趋势和周期信息;
允许用户人工标记和反馈来更好的处理趋势变化。
通过比较预测值和实际值,我们采用GLR (Generalized Likelihood Ratio) 来发现异常点。在这上面我们也做了相应的改进,包括:
Floating Threshold GLR, 基于新的输入数据动态调整模型;
对于噪声比较大的数据做去除异常点。

异常检测算法2
这是一个基于Exchangeability Martingale的在线时间序列的异常检测算法,其核心就是假设数据的分布是稳定的。如果新的数据点的加入导致数据的分布(distribution)发生比较大的变化,我们就认为异常发生了。所以基于历史数据,我们需要定义一个新值异常公式(New value strangeness)。下面是这些公式的构成,对数学不感兴趣的读者可以略去。

在某个时刻t, 我们收到一个新的数据点,对于历史每个数据i:

s[i] = strangeness function of (value[i], history)
Let  p[t] = (#{i: s[i] > s[t]}+ r*#{i: s[i]==s[t]})/N, where r is uniform in (0,1)
Uniform r makes sure p is uniform
Exchangeability Martingale: Mt=i=1tϵpiϵ-1
EMtp1,p2,…pt-1=Mt-1
Integrate ϵpiϵ-1 over [0,1] and pi is uniform
报警触发门槛通过Doob’s maximal inequality控制
Prob (∃ t :Mt>λ)<1λ

对于异常点,Martingale的值就会大于门槛值。
 
异常检测算法3
这是一个简单而非常有效的基于历史数据的指数平滑算法。

它首先基于历史数据生成动态上下界:

Threshold (width) = min(max(M1*Mean, M2*Standard Deviation), M3*Mean)   (M1<M3)
Alert: |Value – predicated value| > Threshold
预测值 = S1+12S2+14S3+18S4+116S51+12+14+18+116

优点在于处理周期性数据的异常检测很好,并且允许用户反馈和标记来调整动态上下界。

系统设计概述 
基于业务场景的需要,我们在设计和实现中需要达成一系列的目标以及处理相应的挑战:

监控流式数据的完整性与时延;
需要监控的数据管道(pipeline)具有多个数据生产者、多处理阶段、多数据消费者的特性;
数据质量的监控需要近实时(near real time);
数据发生问题的时候,提供相应的诊断信息来帮助工程师迅速解决问题;
监控平台的服务本身需要超级稳定和高可用, 99.9%以上在线时间;
监控与审计本身是高度可信;
平台架构可以水平扩展 (Scale out)。

4.1高可用可扩展的架构
如图10所示,审计元数据通过前端服务(front end web service)到达Kafka, 我们利用Kafka来实现高可用的临时存储(transient storage), 这样,我们的数据生产者和消费者在发送审计数据的同时,就不会发生阻塞进而影响更重要的数据流。

通过Spark streaming的应用,把审计数据按照时间窗口聚合,同时有相应的逻辑处理去重,晚到以及非顺序到来的数据,同时做各种容错处理保证高可用。

ElasticsSearch作为存储聚合的审计数据,通过Kibana做报表展示,进而通过Data Analysis service对外提供API来使得用户获取各种数据质量信息。

Data Analysis Service作为最终的API端,提供各种数据完整性、实时性、异常的信息。

上述组件,每个都设计成可以独立水平扩展(Scale out), 并且在设计上保证高容错已实现高可用性。


图10:Audit Trail数据处理架构

4.2异地双活的可靠性保障
通过双数据中心Active-Active灾备(Disaster recovery)如图11所示,来进一步保证高可用高可靠的服务。整体架构保证数据流同时通过两个同构的审计处理管道进行处理,即使一个数据中心因为各种原因下线,整体服务还是处于可用状态,进而保证全天候的数据质量审计与监控。
 

图11:双数据中心Active-Active Disaster Recovery
 
4.3高度可信的审计与监控服务
对于任何监控服务来说,经常被质疑的就是是否监控服务本身的结果是准确可信的。为了保证这一点,我们通过两种方式来保证服务的可信度:
用来审计自身(Audit for audit)(图12);
Synthetic probe。


图12:审计自身

在基于Kafka/Spark/ES的管道之外,我们还有一套独立的经由ES的审计元数据的处理管道,通过比较上述两个管道的结果,我们就能保证审计数据的可靠性。

另外,基于synthetic probe的方式,我们每分钟会发送一组synthetic数据进入前端服务(front end web service), 然后试图从Data Analysis web service 读出,通过这种方式进一步保障数据的可靠性。

4.4辅助数据质量问题的诊断
当数据质量发生问题,Audit Trail提供了原始的审计元数据来帮助工程师进一步做问题的诊断。工程师可以使用这些元数据和他们自己的trace来进一步JOIN, 来提供一种交互式的诊断,如图13。
 

图13:把Trace和审计元数据做JOIN, 可视化的交互诊断视图

效果评估与总结 
通过上述系统架构的设计与部署,我们实现了一系列支持公司Bing,、Office,、Skype业务发展的数据质量监控目标:

监控流式数据的完整性与时延;
需要监控的数据管道(pipeline)具有多个数据生产者、多处理阶段、多数据消费者的特性;
数据质量的监控需要近实时(near real time);
数据发生问题的时候,需要提供相应的诊断信息来帮助工程师迅速解决问题;
监控平台的服务本身需要超级稳定和高可用, 99.9%在线时间
监控与审计本身是高度可信;
平台架构可以水平扩展 (Scale out)。

同时,我们准备开源这个平台服务,因为我们相信这个服务本身是一个足够通用化的解决方案,可以应用于很多公司的数据质量监控场景。

欢迎加入本站公开兴趣群
软件开发技术群
兴趣范围包括:Java,C/C++,Python,PHP,Ruby,shell等各种语言开发经验交流,各种框架使用,外包项目机会,学习、培训、跳槽等交流
QQ群:26931708

Hadoop源代码研究群
兴趣范围包括:Hadoop源代码解读,改进,优化,分布式系统场景定制,与Hadoop有关的各种开源项目,总之就是玩转Hadoop
QQ群:288410967 

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2018-9-18 07:19 , Processed in 0.173006 second(s), 25 queries .

百度