数据中心“百家讲坛”第五课——关于“数据治理”这件事

      演讲人介绍

    演讲人:姜炜
    职位:Informatica公司中国区高级技术顾问
    简介:毕业于吉林工业大学,2005年加盟Informatica公司,拥有Informatica资深级别认证。姜炜在制造业、税务等行业,从事了8年的商业智能、数据仓库项目建设,对数据集成、模型建设、数据展现等环节有深入的研究。

      演讲内容简介

      数据治理涵盖数据集成、数据质量、主数据管理等技术,致力于通过数据驱动,实现企业业务价值最大化的目标。本期课程,我们将为您呈现企业数据治理蓝图,以及业界最新的数据治理相关工具及解决方案。

      informatica公司

    Informatica在世界各地已拥有超过4440家客户,范围涵盖航空航天、汽车、能源公共事业、娱乐、媒体、金融服务、医疗、生命科学、高科技、保险、制造、公共部门、零售、服务、电信、旅游、交通等行业。

      本期获奖名单

获得由Informatica公司提供的USB时尚手机座或行李牌一个
 158***15295  谭先生 南京电讯研究所 
 135***66331  吴先生 交通公社新纪元 
 152***73680  闫先生 攀钢集团成都地产有限公司 
 134***04510  陈先生 安硕信息技术有限公司
 152***83033  许先生 信天通信

139***59389  张先生   化州市机要局
138***73947  shixl   天津农商银行
130***56207  jiangcheng   Honeywell 中国
135***46064  赵先生   国家电网公司山东莱芜分公司

获得由Informatica公司提供的精美高尔夫手提包一个。
130***75169  刘先生 北京市海淀区职工大学
135***09605  李先生 陕西省福彩中心

关注"@数据中心百家讲坛"微博,掌握最新动态  
      Informatica技术顾问介绍
技术顾问1:姜炜
职位:Informatica公司中国区高级技术顾问

技术顾问2:杜绍森
职位:Informatica公司中国区高级技术顾问

技术顾问3:但彬
职位:Informatica公司中国区高级技术顾问
      精彩问答集锦

:shuailing8848 非常期待的一场研讨会啊
:网界网客服  界网数据中心百家讲坛 第二学期第五课"关于数据治理这件事"马上开讲啦!


:chenyuebin 非常喜欢今天的主题
:网界网客服  今日直播中,现场精彩提问者,将有机会获得精美高尔夫手提包一个,共2个;


:fansnaf 等着看看怎么处理垃圾数据
:Informatica技术顾问1  首期数据治理话题, 不会细节. 是宏观的内容, 有关数据质量控制只是其中一个环节.


:lvwenxiu 特意报名与大家一起来学习
:网界网客服  对今日抢座成功者,将有机会得到USB时尚手机座或行李牌一个,共10个;在线观看视频的网友们都有机会哦!


:多多X2多多 大家好!~第五次参加活动,很嗨皮~很嗨皮~
:网界网客服  【微博关注】每期课程开始之前一周内,微博同期都会发起相应活动供大家交流!请时刻关注数据中心百家讲坛微博,微 博地址:http://weibo.com/u/2188100405 ! 同时可以加新浪微博关注:@数据中心百家讲坛 @informatica-数据集成


:克强 数据治理有哪些类型?
:Informatica技术顾问1  哪些类型? 应该是指具体的相关技术手段吧。请详细听讲


:克强 数据治理有行业标准吗?
:Informatica技术顾问1  没有. 此次只是讲的规范化的流程。


:克强 数据治理有行业标准吗?
:Informatica技术顾问1  有些公司都有总结自己的最佳实践。


:shuxin8168 什么是数据治理,有定义吗?
:Informatica技术顾问1  演讲内容中有


:chinafengkun 数据治理和数据管理有何区别?
:Informatica技术顾问1  治理比管理更要大. 以治为主。


:shuailing8848 数据治理的意义是什么?
:Informatica技术顾问1  为企业提供真实,有效和可信的数据,只有一个数据声音。


:kikill82 数据质量问题是否包括了数据的一致性在里面?
:Informatica技术顾问1  包括, 只是其中一个属性之一。


:laishouyi 我现在正在搞一个项目,项目需求就很不明确。
:Informatica技术顾问2  项目需求不能简单从技术入手,要跟业务部门沟通,抓出最急迫的问题,快速见效。


:laishouyi 业务需求不明确确实非常痛苦。
:Informatica技术顾问1  需要有持续的政治意愿支持才好。


:kikill82 数据质量问题是否包括了数据的一致性在里面?
:Informatica技术顾问1  只是其中属性的一项, 还有类似完整性, 性之类的.


:laishouyi 感觉有点闭门造车。
:Informatica技术顾问2  是的,技术和方法只是通用的经验,没有业务部门访谈、调研,没有流程支持,单纯的治理是很难见到成效的。


:liuzeshan 哪些方面最适合主动数据治理?
:Informatica技术顾问2  这是比较理想的环境,比如数据产生的源端可以改造,有企业级统一的治理规范,业务流程可考核支持,才可以实现主动治理。具体哪些方面要看需求。


:老刘 数据质量监控包括哪些内容?
:Informatica技术顾问1  听讲,里面有. 主要是数据的六类属性..类似完整性\合法\一致\重复..等。


:JACK 数据治理是基于什么?oracle么?
:Informatica技术顾问1  听讲,里面有。不和某一具体的数据库相关。


:shixl 数据集成和数据整合是一个概念么
:Informatica技术顾问1  原则上类似. 集成更多是从杂乱的渠道得到数据。整合更多倾向利用某一技术针对数据的合并。


:liuzeshan 主动数据治理何时开始合适?
:Informatica技术顾问2  如果条件允许,越早越好。


:liuzeshan 主动数据治理何时开始合适?
:Informatica技术顾问2  事前治理比事后治理效果好,费用低。


:symax 有没有成功的应用案例?
:Informatica技术顾问1  每个客户出发点都不同。要看哪方面,数据集成很多, 数据质量很多。但作到全面的,并不容易。


:nova 数据治理是需要咱公司针对业务进行相应的开发来实现是不?
:Informatica技术顾问1  有相关性。需要业务人员的支持。


:多多X2多多 专家讲得不错哦~!支持一下~~!!有个小问题,我想请问专家,在开展数据治理项目之前,如何对公司目前的数据质量、清洁度进行全面的评估?
:Informatica技术顾问1  听讲,里面有。有一个环节讲到数据质量。


:liuzeshan 主动数据治理应当避免哪些问题?
:Informatica技术顾问2  比如避免治理规则的不一致,避免没有高层支持,避免单纯治理数据,不治理流程等。


:天天好心情 数据治理在电力行业有成功应用的案例吗?
:Informatica技术顾问1  国网、南网。


:symax 那有工商税务方面的应用吗?
:Informatica技术顾问1  国家税务总局, 各地国\地税比较多。工商总局也是INFORMATICA的用户。


:dddonline 如果企业计划部署私有云,针对云的数据集成应该怎么开展?传统的数据集成和云的数据集成是否需要整合到统一系统中?
:Informatica技术顾问1  这就涉及云数据集成, informatica cloud 专门作这块儿。详细会后可以联系informatica


:zilla 黄金数据
:Informatica技术顾问2  对,治理的目标是获得黄金数据。


:loveelf 金融业呢
:Informatica技术顾问1  很多..国内大概有几十家。我们和深圳证券 ING 光大证券有很好的合作。


:天天好心情 在国网北京总部的信息中心有成功应用的案例,对吧。
:Informatica技术顾问1  主要是在北供有应用。


:yb2401 房地产企业有吗?
:Informatica技术顾问3  不好意思 我们还没有很好的房地产企业案例。


:lixuduan 实施周期大概多长?
:Informatica技术顾问1  要看企业规模和决心。


:午夜幽灵 数据质量分析员这个角色在哪个案例里面存在?
:Informatica技术顾问1  邮政、中投等客户都是首先作数据质量分析。


:wwt1573 这个数据治理的概念现在不太热。
:Informatica技术顾问1  很多客户都在做这事,只是力度大小不同。


:yb2401 看来数据治理主要适用于数据中心或者大型企业等。
:Informatica技术顾问3  是的。


:loveelf 非结构化数据现在INFORMATICA这边采用的什么方式处理?
:Informatica技术顾问1  主要是利用XML来描述这类的非规则, 可以处理PDF, EXCEL, WORD和行业报文。


:chai_shasha 数据集成工具在跨平台方面的能力如何?特别是针对物理、虚拟、云、非云的混合环境?
:Informatica技术顾问2  Informatica DI支持常见的WindowsUnixLinux等平台,几乎所有的数据源。现在的informatica 9平台支持Hadoop云平台。


:张红超 购买了商用的数据集成产品后,公司原先手工编码完成的数据集成如何整合到新的数据集成平台中?
:Informatica技术顾问1  不建议在过程中存在太多脚本,这样不容易维护,成本也会比较高。所以, 还是工具化,平台化比较好。


:wwt1573 数据治理处于IT的哪个部分,能不能简单说说?
:Informatica技术顾问2  不同企业机构设置不同,一般放在数据管理相关部门,也有放在战略部门。


:loveelf 就是说把PDF根据一定的规则转换为XML,然后在MAPPING处理?
:Informatica技术顾问1  可以。B2B这个产品专门处理非结构化数据,可以传给Mapping,也可以直接写成文件。


:tethy 听说有放在财务部的。
:Informatica技术顾问1  财务数据的处理,只能算作企业的一部分,不能称为企业的数据治理。


:yb2401 是否与IBM的重复数据删除类似呢?
:Informatica技术顾问2  重复数据是数据治理的一方面,治理的范围要更宽。


:福之喜 元数据管理应该属于数据质量的范畴吧?具体怎样实现元数据管理
:Informatica技术顾问1  是。 但你的问题太大, 需要专门交流元数据方向。建议联系Informatica公司。


:gator_yin 目前informatica在中国有多大规模?比如总人数。
:Informatica技术顾问3  我们目前在大中国区设有北京,上海,广州,香港,台湾办公室,欢迎来电咨询。北京总部电话:010-58793366


:caixin 引证数据 说的就是数据标准编码吧!
:Informatica技术顾问1  包括, 但比这个要大。


:zxzxcl 能否把总的思路告知一下,有些理不清了,谢谢。
:Informatica技术顾问2  数据治理是企业内部对于标准和规范的统一,并用相关的技术手段和流程,保证数据质量的方法。


:多多X2多多 请问专家,如果集成的工作量不是很大,采用手工编码就可以实现,是不是可以暂时不考虑购买商用的数据集成工具?
:Informatica技术顾问1  要看企业策略。


:jawen 引证数据也就是对单位的性质的核实吗?
:Informatica技术顾问2  这只是一类,所有需要通过引用进行标准化,规范化的字典数据。


:yb2401 那你们的意思就是如果需要治理数据就联系你们是吗?
:Informatica技术顾问1  也可以联系IBMOracle


:kikill82 我们公司最大的问题就是数据的一致性问题,有没有好的方法介绍。
:Informatica技术顾问2  是的,具体的内容可以联系Informatica公司,进一步沟通解决方法。


:lukebie 对于业务数据而言,主数据就是引证数据,对于主数据而言,数据属性代码集就是引证数据,这样理解是否正确。
:Informatica技术顾问1  主数据和引证数据还是有所区别的。主数据一般是企业内数据, 引证的有可能来自外部。例如,地址库。


:chinafengkun 数据质量水平是不是不同企业也不一样呢?
:Informatica技术顾问2  是的,完全不同,不同类型的数据,质量问题也不同,比如客户数据的重复问题,物料数据的编码一致性问题,以及其他数据的完整性等问题


:福之喜 数据治理主要包含些内容?比如说业务规则、主外键、值域,除了这些方面还有别的方面吗?
:Informatica技术顾问1  听讲,里面有。你说的是数据质量的部分吧..


:yb2401 那你们公司是哪里的?具体是做什么的?怎么联系你们呢?
:Informatica技术顾问1  Informatica公司在北京为总部,电话010-58793366


:tethy 这个各个角色流程图的内容很好。
:Informatica技术顾问2  谢谢。


:Anne Zhang 数据治理和数据分析应该是两个层面的事情,数据治理为数据分析提供环境。

:Informatica技术顾问1  治理是大层次, 数据分析只是一个环节, 一个级成部分


:福之喜 数据治理应该从哪些方面入手?
:Informatica技术顾问1  数据质量, 数据仓库等。一般都是从这些项目入手。


:碧海蓝天 数据治理有没有相关的最佳实践?
:Informatica技术顾问2  有,informatica在数据质量、数据集成和元数据管理方面都有自己的最佳实践。


:ll0012 非结构化的数据质量怎么界定,治理有些什么手段,有个例子么?
:Informatica技术顾问1  例如, 一个不规则的PDF, 里面有文字有数据。所以, 不是二维的关系型数据,一般是非结构化的。将之处理成规则的二维数据, 就是本次演讲的治理流程可作的了。


:HEIZI 规则定义有没有一种规范性版本?
:Informatica技术顾问1  原则上讲有专门作 rule base的工具,会有一些规范性的行业标准,要看行业。


:jawen 数据治理还是第一次听说,对这个很感兴趣。
:Informatica技术顾问2  是啊,是从纯技术层面向企业层面的转变


:tanmch 你们所做的数据清洗主要是相似重复记录的清洗吧。
:Informatica技术顾问1  不仅仅, 数据完整性\合法性\一致性等六个属性, 重复只其中一环。


:jawen 数据转换也是就轻度、高度聚合,是吗?
:Informatica技术顾问1  要看服务的目标。如果是治理一般不需要, 但要分析,可能就会需要。


:jawen 请问今天讲的数据治理和现如今使用的商业智能系统,有什么区别吗?
:Informatica技术顾问2  商业智能如同水塔,用于存放数据,数据质量如同改造输水管网,为水塔提供干净的水,也就是为BI提供可靠的数据。


:克强 有无网络教育-远程教育的案例?
:Informatica技术顾问3  我们网站上面有相关Demo供下载,学习。请浏览:www.informatica.com.cn


:tanmch 对于不一致数据如何处理?
:Informatica技术顾问1  要看业务规则. 但会有模糊匹配的功能, 可以帮助数据关联。


:jawen 业务术语定义有没有规定的统一标准啊?
:Informatica技术顾问1  没有业界或国家标准的话, 就没有。但像医疗行业,如果有的话, 可以借用这些标准。所以和行业相关。


:tethy 要看到底是什么样的不一致的数据吧?
:Informatica技术顾问1  ..要先分析, 找到其中的逻辑, 并且让业务人员认可才行。


:ll0012 怎么界定元数据和主数据
:Informatica技术顾问2  元数据主要是数据的技术和业务定义,主数据是关注数据的内容,比如某一客户的性别具体是男还是女。后面还会有主数据的课程。


:yb2401 你们公司的官网是
:Informatica技术顾问3  我们还有自己的微博和博客 欢迎关注 新浪微博http://weibo.com/informatica 浪博客http://blog.sina.com.cn/informatica 公司官网:www.informatica.com.cn 电话:010-58793366


:克强 数据治理那些公司做得比较好,都有何特色?
:Informatica技术顾问1  informaticaIBMORACLE都在做数据治理。特色自己在网上查吧,我们不能自吹。


:chai_shasha 大数据最近非常红?针对大数据有哪些相配套的数据治理技术?这个领域的数据治理有哪些新的趋势?
:Informatica技术顾问1  informatica 针对Big Data有专门的方案和产品。可以与Informatica公司联系了解。


:loveelf 团数据informatica的相关组件中哪部分专门进行处理?
:Informatica技术顾问1  ICC的方法论来支持。利用技术平台来实现。主要是梳理。


:jiangcheng 该平台兼容所有数据库吗?
:Informatica技术顾问2  兼容,也包括文件数据,非结构数据等。


:simon.zhao 数据治理的核心是什么呢
:Informatica技术顾问2  核心是统一的标准、规范、规则。


:tethy 我用过Informatica PowerCenter,特别好,感觉比DS好用。
:Informatica技术顾问2  谢谢。


:mqd Informatica是否在中国有典型的数据治理的案例呢?
:Informatica技术顾问1  各行业都有。要看你是哪个行业,因问题比较多。过后可以联系Informatica了解。


:loveelf 这次讲的还真是有点大 最好还是多讲些细节
:Informatica技术顾问2  因为时间有限,具体的可以跟Informatica联系交流。


:loveelf 期待下次
:Informatica技术顾问3  第二场在线网络直播研讨会预报: 我们将在1221日播放第二场:数据质量管理:数据中心优化必修课  直播时间: 2011.12.21 1400-1500  演讲人:杜绍森 欢迎来电咨询:010-58793366


:夏艳 能不能总结一下数据集成和应用集成的不同点?在能够实现类似效果的前提下,应该选择那种集成技术。能不能举个例子?
:Informatica技术顾问1  一个是ETL,一个是EAI。一个偏数据,一个偏应用。不同方向。详细请联系Informatica


:tobn 是,经常出现有缺失,特别是数据库类文件。
:Informatica技术顾问2  数据不丢失就好,数据库会通过日志保证备份后数据的一致性。


:tanmch Informatica的产品有没有试用版?
:Informatica技术顾问1  有,请联系Informatica


:mumx IDQ现在和ETL整合了?
:Informatica技术顾问1  是的。


:mumx 数据治理估计比做个系统还累。
:Informatica技术顾问2  是的,考虑的系统间约束比较多。


:tethy 中奖了。
:Informatica技术顾问3  恭喜啊 我们会和您取得联系 并将礼品快递给您


:qditz 咱们的数据治理对性能有没有影响?
:Informatica技术顾问1  源影响很小。主要是治理平台的数据处理。


:shuxin8168 希望能与Informatica 合作
:Informatica技术顾问3  谢谢您的支持 我们的联系方式010-58793366,欢迎来电。


:lets 请问视频有没有回放?
:Informatica技术顾问3  有的,视频回放就在网站主页。欢迎关注!


:laishouyi 关键是业务人员素质太低了,录入系统的数据乱七八糟的
:Informatica技术顾问2  是啊,所以需要通过技术和管理流程等手段配合治理过程