数据中心“百家讲坛”第九课——数据质量管理:数据中心优化必修课

      演讲人介绍

    演讲人:但彬
    职位:Informatica公司中国区高级技术顾问
    简介:现任Informatica公司中国区高级技术顾问,主要负责Informatica公司的产品和解决方案(特别是数据质量、主数据管理、大数据等数据治理解决方案)在中国市场的推广。

      演讲内容简介

      数据是企业数据中心的重要资产。获取并维护高质量数据,对高效的IT和业务运营至关重要。面对复杂度不断增加的业务数据,如何全面保证数据质量?与业务数据的“豆腐渣”工程说ByeBye!坚固的数据大厦从现在开始构建!

      informatica公司

    Informatica在世界各地已拥有超过4440家客户,范围涵盖航空航天、汽车、能源公共事业、娱乐、媒体、金融服务、医疗、生命科学、高科技、保险、制造、公共部门、零售、服务、电信、旅游、交通等行业。

      本期获奖名单

获得由Informatica公司提供的USB时尚手机座或行李牌一个
 133***96167  周先生 广州市合创鑫投资发展有限公司 
 158***00994  吴女士 iTalk Global Beijing office 
 159***00672  赵先生 河南天信信息技术有限公司 
 138***19455  张先生 江苏高速公路信息工程有限公司
 156***15801  赵先生 济南联通分公司

020-83***025  刘先生   广州机械科学研究院
153***12796  于先生   中国电信
138***28821  joyce lu   PWC Shanghai SDC
139***82963  穆先生   江苏移动

获得由Informatica公司提供的精美高尔夫手提包一个。
135***89801  刘先生 肇庆亚洲铝厂有限公司
151***38942  吕女士 淄博市博山电机集团股份有限公司

关注"@数据中心百家讲坛"微博,掌握最新动态  
      Informatica技术顾问介绍
技术顾问1:姜炜
职位:Informatica公司中国区高级技术顾问

技术顾问2:杜绍森
职位:Informatica公司中国区高级技术顾问

技术顾问3:但彬
职位:Informatica公司中国区高级技术顾问
      精彩问答集锦

:shuailing8848 非常期待的一场研讨会啊
:网界网客服  界网数据中心百家讲坛 第二学期第五课"关于数据治理这件事"马上开讲啦!


:chenyuebin 非常喜欢今天的主题
:网界网客服  今日直播中,现场精彩提问者,将有机会获得精美高尔夫手提包一个,共2个;


:fansnaf 等着看看怎么处理垃圾数据
:Informatica技术顾问1  首期数据治理话题, 不会细节. 是宏观的内容, 有关数据质量控制只是其中一个环节.



:chenwei_cgt 下午好
:网界网客服  今日下午为主题“数据质量管理:数据中心优化必修课”视频直播活动。立即抢座参与,您将有机会与业界专家面对面畅谈。凡观看直播的网友,人人均有机会获得由Informatica公司提供的精美高尔夫手提包一个。
:克强 数据中心优化应从哪些方面考虑?
:Informatica专家2  流程和质量很重要,执行力度。
:wtwi 结构和非结构的数据如何统一?
:Informatica专家2  需要将非结构化数据转为结构化,容易访问的数据,根据业务主线,进行关联,统一利用.
:erli informatica的优势是什么?
:Informatica专家2  优势很多。Informatica技术比较强一些, 同级别的对手IBM,市场比较强。
:silly_鹏 主要是数据的清洗和去重~
:Informatica专家1  技术上是包括清洗和去重,最好与管理和流程配合,与应用整合。
:liuzeshan 数据中心优化是否软硬件的优化都包括?
:Informatica专家1  这次主要从数据质量角度出发。
:fansnaf informatica有么比较成功的市场案例?
:Informatica专家4  全球有超过4500家客户在使用informatica的解决方案,很多成功案例。
:五月花 不同数据源在合并时经常会发生错误,如何提高数据合并的效率?
:Informatica专家2  需求调研很重要。一定要有业务主线串起来,辅以IT手段。
:福之喜 如何保证数据质量?
:Informatica专家1  注意数据质量的方法和技术保证相关的内容。
:wtwi informatica对比其他ETL工具,在质量控制有什么优势?
:Informatica专家2  有专业的IDQ工具,从业务和IT两方面着手,提高数据质量。
:silly_鹏 我以为是讲informatic Powercenter呢?
:Informatica专家1  这次不是特定的产品培训。
:chai_shasha 对于企业来说,怎样评估目前企业数据的数据质量呢?有没有相关的评估工具或者服务?
:Informatica专家4  我们会在后面的演讲中介绍,请继续关注。
:lixuduan 有没有评估数据质量的手段和方法?
:Informatica专家1  通过数据质量记分卡,设定目标,实施监控。
:福之喜 数据质量保证应该注意哪些方面?从哪几个方面作为切入点?
:Informatica专家2  主要是对数据的度量,了解数据的问题,在此基础上再进行提高。
:wtwi 如何评估数据质量?
:Informatica专家1  从数据完整性、一致性、准确性等多方面评估。
:五月花 请问专家,数据清理就是数据质量管理吗?
:Informatica专家2  应该是包括在质量范畴之内的。
:fansnaf 之前也提过几次,介绍结合具体案例来最好了,
:Informatica专家4  相关具体案例可以参见我们的网站:Informatica产品演示/白皮书/成功案例下载:http://www.informatica.com/cn/knowledge_center/Pages/index.aspx
:hzzj Informatica Data Qualit是 基于浏览器的工具么?
:Informatica专家2  有针对业务人员使用的客户端,是web的。
:lmusic99 数据质量管理如何在数据产生初期起作用?
:Informatica专家1  通过规则、校验的服务化,与应用前端集成。
:shuailing8848 做好数据质量管理需要注意哪些方面?
:Informatica专家2  人、技术、规则、流...几者要结合统一考虑。
:福之喜 数据质量的具体实施方案包含哪几个步骤?
:Informatica专家1  包括评估分析,目标制定,设计,实施,监控,评估...往复过程。
:克强 突然断电造成数据损毁,怎么办?
:Informatica专家2  首先要有数据才可以控制质量.
:我心飞扬 有没有数据质量管理的国际管理标准,类似ISO9000那样?
:Informatica专家1  没有,主要基于最佳实践。
:chinafengkun 对于影响数据质量的非技术因素,专家有哪些经验?
:Informatica专家2  只能辅以IT技术来协同管理,但IT不能决定数据,只能提高。要将业务也引入,一起协同工作才好。
:silly_鹏 这个关于数据质量控制 涉及我们Informatic那个产品?
:Informatica专家1  IDQ
:jawen 数据质量管理和数据分析有区别吗?
:Informatica专家1  有
:HEIZI 数据质量框架和方法论是否有国际规范?
:Informatica专家2  没有..只有最佳实践
:lmusic99 如果原始数据缺失比较厉害,在后期如何处理?
:Informatica专家2  如果无法从别的数据中推导出来,那只能从业务源端着手了。
:wtwi 有哪些量化指标?
:Informatica专家1  关注点因企业需求而不同侧重,比如空值率、一致性、完整性等。
:nxling 数据质量管理的软件硬件失败或者崩溃如何挽救?
:Informatica专家2  一般中国都是后作, 所以只要数据存在,规则存在,就不是什么问题。
:mumx IDQ和POWERCENTER是否整合了?
:Informatica专家4  是两个不同的数据集成解决方案。
:wtwi 在源数据分析方面,如何保证数据质量?
:Informatica专家2  源数据分析是保证数据质量的前题。
:五月花 专家,如何正确理解数据和数据质量? 我有点混淆~~
:Informatica专家1  数据是数据的内容,数据质量是关于数据内容的好坏,是否可信。
:网中虫 评估的量化标准?
:Informatica专家2  要将业务人员, IT和质量专家的几者意见统一,才能成为企业标准。
:silly_鹏 完备性,符合性,一致性,准确性,唯一性和完整性,全方位保证数据质量,好难啊 呵呵
:Informatica专家4  这些都是保证数据质量不可或缺的条件。
:我心飞扬 维度的标准谁定?用户还是技术人员?
:Informatica专家2  几个角色的人要结合统一。
:wtwi 完备性和完整性有什么区别?
:Informatica专家1  完备性是信息是否完全,比如填没填,填的是否完善。完整性主要指数据是否符合操作约束,比如国家代码是否是一个可用的代码。
:shuailing8848 能否解释一下数据质量矩阵?
:Informatica专家2  定义企业质量维, 从各个维的方面去考察一个数据单元。
:小二二 Informatica与Ibm相比较哪一块技术优势最大?
:Informatica专家4  Informatica的数据集成解决方案有很多优势,具体请参见我们的网站或者来电咨询。
:chai_shasha 新类型的数据如何保证数据质量?比如空间数据、社交网络数据、大数据之类。
:Informatica专家2  这个问题很大, 请联系informatica吧。
:五月花 在企业管理中,数据挖掘分析和数据质量管理哪个更重要一些呢?
:Informatica专家2  不冲突, 但高质量的数据肯定是很重要的。
:福之喜 IDQ的数据质量管理工具,在国内的市场占有率大概是多少?
:Informatica专家4  目前国内已经有很多客户在实施IDQ方面的项目,目前尚无具体的市场占有率分析数据。
:xuhongxing0822 ?Informatica专家1: 完备性是信息是否完全,比如填没填,填的是否完善。完整性主要指数据是否符合操作约束,比如国家代码是否是一个可用的代码 ?
:Informatica专家1  更极端的是完备性指空值NULL,完整性指填写的某一代码是否在取值范围内。看片子的举例。
:福之喜 对IDQ这个产品,贵公司近期有没有培训计划?想学学
:Informatica专家4  我们公司会定期推出一系列的培训,请关注我们的网站或者来电咨询。
:silly_鹏 我觉着做好数据质量管理的前提和关键 还是做好数据资源的规划和梳理,如果连有哪些数据都不知道就去谈如果保障数据质量,还是比较空泛啊!呵呵。
:Informatica专家2  所以,要从数据治理的大方面上进行,质量控制只是治理的一个环节.
:szyouer 如何防止由于断电导致数据传输中断丢失?
:Informatica专家1  采用特定的传输手段和确认机制,比如消息队列,比如应答机制等。
:贝比 一些非核心的业务数据是否需要做数据质量管理?
:Informatica专家2  如果后继有分析或利用价值,就需要。
:我心飞扬 数据质量维度之间的冲突怎么处理?比如及时性和完整性之间的相互关系?
:Informatica专家2  不会冲突.不同维度的定义不同,度量的内容也不同。
:denny 演讲PPT/PDF是否可以下载?
:Informatica专家4  会提供录像回放供您参考,可以随时观摩学习。
:wtwi 数据质量体现在哪些环节?
:Informatica专家1  整个数据生命周期。
:平头 Informatica有测试版没有,想试试。
:Informatica专家4  可以提供测试版,具体请来电咨询。
:网中虫 怎么理解数据质量和数据安全之间的关系?
:Informatica专家2  不冲突。都属于数据治理大方向上的不同内容。
:jawen 贵公司的数据质量管理软件,可以在小型公司使用吗?
:Informatica专家4  具体看公司数据的情况而定。
:gbj001 完全的做到数据标准化可能需要一个长期的过程。
:Informatica专家1  是,需要业务咨询配合,同时是一个长期不断完善的过程。
:joyce2316 在Informatica 9中,是不是 data profiling, parsing,cleansing, mathcing, enrichment是不是集成在一个工具中了?还是想8.6那样在几个工具中完成?
:Informatica专家2  9.1中是在一个工具中. 8.6也可以,但功能没有v9.1强大.
:silly_鹏 上次数据治理的课程也听了,感触很多啊。之前过度的关注了某个业务数据,但缺乏对整体数据全局的考虑,造成很多数据的冗余和混乱。
:Informatica专家1  是的,全局考虑可能开始慢,但是总体上是节约成本的。
:lmusic99 数据质量管理的最佳实践是什么,例如运维最佳实践ITIL
:Informatica专家2  有一些具体的流程和手段,请联系Informatica 市场部,电话010-58793366。
:五月花 要解决数据质量低下的问题,需要从哪些方面先入手?数据质量的评估应该找谁来做?
:Informatica专家2  从数据治理进行统一考虑,入手肯定是数据剖析,先了解数据的问题。质量评估应该是懂业务又懂一点IT技能的人。
:fansnaf 数据管理和数据维护有什么区别么?
:Informatica专家2  管理应该包括维护, 管理的内容更广泛。
:shuxin8168 实施数据质量管理项目需要多长的周期?
:Informatica专家2  一个周期应该是三个月左右吧,要看规模。
:hzzj Informatica Analyst能找出异常并管理数据质量异常记录吗?
:Informatica专家2  可以.看来你还是有所了解的..呵呵。
:我心飞扬 有元数据规范国际标准吗?
:Informatica专家1  元数据有标准,主要用于元数据交换。
:shuailing8848 中小企业适合做数据质量管理吗?
:Informatica专家4  只要贵公司的数据出现了相关问题,需要解决,都可以采用数据质量管理解决方案。
:silly_鹏 数据标准化我觉着不难,难在标准的可扩展性,随着业务的发展和数据的变换,标准也要有所升级变动,否则不适应业务的发展了。可一旦标准升级了,对原有执行标准的系统又是一个影响。
:Informatica专家2  这是不可避免的。如果变动比较大, 肯定要针对利用的数据,也要变更的。
:joyce2316 能再解释一下DATA STEWARD这个角色吗?看了一些书,但是一直对这个角色不是很清楚,谢谢。
:Informatica专家1  数据管理员,办IT半业务的角色。
:贝比 谢谢专家的回答 还有一个问题:不同行业的数据质量管理有没有一些自己的最佳实践,或者管理规范?
:Informatica专家2  都是各企业自己定义的。
:shixl 如何从数据源头保证数据质量?
:Informatica专家1  需要指定统一的管理指定,形成规则,整合到业务应用的前端。
:wtwi 异常诊断有哪些手段,保证数据质量?
:Informatica专家2  按数据质量维,进行度量,然后一系列的方法论、流程,要严格执行。
:joyce2316 数据质量的项目在行业的成功率是多少?做过几个项目,感觉成功率不高。。。
:Informatica专家1  量化评估很重要。
:szlife HL7,在卫生系统数据交换的国标,不知是否上面所说的标准?
:Informatica专家2  HL7在informatica平台上也是支持的。
:hzzj Informatica Analyst可以过滤和向下钻取到数据质量低劣的特定记录么?
:Informatica专家1  可以。
:lmusic99 元数据管理在数据质量管理起到什么作用?
:Informatica专家2  相互影响。 元数据像DNA,数据质量像血液的问题。元数据是根上的问题之一。
:fansnaf 感觉关于数据质量的管理只有在规模以上单位才有意义。
:Informatica专家1  业务需求驱动。
:fansnaf 一般中小企业上这个好像得不偿失,不知是否这样理解?
:Informatica专家2  要看驱动力是否足够强。
:shuailing8848 如何进行数据剖析?
:Informatica专家2  有专业的web客户端, 要求懂业务懂数据的人去剖析。
:wtwi 规范化除了分解还哪些方法?
:Informatica专家1  分解,然后标准化,比如北京变成北京市。
:nova Informatica需要预先把所有的数据规则输入后才能进行匹配比对吧
:Informatica专家2  是的。有一个很大的规则库,并可以根据需要,修改。
:hzzj Informatica Analyst如何监控和共享数据质量度量和报告?
:Informatica专家2  将结果利用前端工具展现就可以。
:greatsino 该工具对数据的质量管理包括哪几个重要方面?检测分析?校验纠错?结构优化?还有……?
:Informatica专家1  标准化、匹配、合并。
:wuxiuyi 好东西,但对一般中小企业如何才能看到带来的利益?
:Informatica专家2  要看驱动力了,如果没有强的驱动,中小企业一般也不会作DQ。
:silly_鹏 数据管理这块之前我们也做过一个小工具,往往涉及比较大量的运算和处理,如果数据关系比较负责的话更是麻烦事情,不知道我们informatic的差评性能如何?
:Informatica专家2  这个要看具体的规则和数据了。
:jawen 如何对数据质量进行管控呢?
:Informatica专家1  制度结合绩效管理,流程结合人员职责。
:hzzj Informatica Administrator能够管理服务、内容和节点,包括支持网格和高可用性的配置吗?
:Informatica专家4  可以实现这些功能。
:jawen 数据合并适合哪些数据库中的数据进行合并呢?
:Informatica专家2  所有的数据。数据是自然属性,不应该和具体哪种数据库想在一起。
:平头 数据匹配后,会不会改变原有数据库数据?
:Informatica专家1  一般会生成新的记录,也要看源系统是否可以接受改变。典型的应用是给DW等使用。
:szyouer 影响数据质量的因素主要来源是哪些方面?
:Informatica专家2  源头...规则,标准不统一。
:jawen 这些需要制作数据仓库吗?
:Informatica专家2  可以在EDW项目作为切入点。
:silly_鹏 数据质量管理阶段的数据清洗和匹配,跟我们在ETL过程中做的清洗和转换有什么区别和联系呢?
:Informatica专家2  DQ更专业一些,包括一些模糊匹配,涉及一些算法。
:lvwenxiu 在进行数据管控方面需要注意什么?
:Informatica专家1  业务驱动项目,技术结合管理。这两点最容易被忽视。
:silly_鹏 还是我们这个数据质量管理就包含了ETL过程
:Informatica专家2  不冲突,应该做到 E、T、C 、L。
:szyouer 如何进行管理质量的验证和确认?
:Informatica专家2  按维度定义期望值。
:nova ?Informatica都支持什么平台的
:Informatica专家2  所有平台都支持。
:mumx IDQ与ETL如何整合一起使用,ETL中的数据异常分析与IDQ如何结合?
:Informatica专家2  不冲突,异常数据流入到IDQ流中处理。
:hzzj Informatica Data Quality所有团队成员都能够轻松共享数据探查和数据质量记分卡吗?
:Informatica专家2  可以。
:夏艳 数据质量、数据治理和数据集成三者之间的关系应该怎么理解?
:Informatica专家2  数据治理最大,里面包括质量和集成。
:我心飞扬 数据质量管理目标怎么具体确定?
:Informatica专家1  哪些数据质量问题已经影响了业务?现状是什么?可预期的目标是什么?等等.
:lookout 初期的数据质量管理应该如何规划和开展?
:Informatica专家4  主要以业务驱动为指导方向.
:夏艳 如果数据的管理规范变化了,在数据质量方面需要做哪些工作?
:Informatica专家2  要看影响了。大的变更,所涉及的数据也要重新规范了。
:gbj001 只有数据量大的时候才为涉及到数据质量的问题吗?
:Informatica专家2  不是。
:hzzj 可以清洗多少个不同国家的地址?
:Informatica专家2  60个。
:asddsd Informatica数据质量管理在QA保证上有什么措施?
:Informatica专家1  实时监控、评估.
:平头 使用该产品,会不会要重新更换性能更高的服务器。
:Informatica专家1  规则需要一定的处理能力,一般需要单独的机器。
:szyouer 数据清洗主要指哪方面?
:Informatica专家2  剖析、规范化、匹配、整合。
:nova ?Informatica感觉很强大,不知道部署是不是也相当麻烦?
:Informatica专家4  我们的产品很大的一个优势就是易用性。
:jawen 数据质量和数据分析,有相似之处吗?
:Informatica专家2  有一部分会有重复。但目标不同。
:hzzj 可以访问和清洗在任何数据源中的任何数据?
:Informatica专家1  是的,任何可连通的数据源都可以。特别的数据存储可能需要特别的接口。
:rossalie 刚才的数据合并是不是在主数据管理中进行实现的?
:Informatica专家2  可以在MDM之内,也可以在外。
:mumx 异常我都在ETL抽出了,还要去IDQ干吗?
:Informatica专家2  呵,你的着眼点可能比较小,如果从大处看,需要IDQ这类的专业工具了。
:福之喜 Informatica公司 IDQ培训收费吗?
:Informatica专家4  有两种不同的方向,具体看公司需求。
:denny 有关于语义技术(Semantic Tech.)的技术应用吗?
:Informatica专家1  这个更多在内容的分析上,不是我们的重点.
:我心飞扬 文本数据怎么进行质量控制?
:Informatica专家2  质量控制不同载体、文本、数据库都是一样的处理。
:jawen 数据质量可以给公司带来哪些效应呢?
:Informatica专家1  更可靠的数据,更可信的数据。
:richard-fj 一些数据本省的描述就存在模糊性,那么在数据规范化方面如何进行?
:Informatica专家1  业务定义必须先确定清楚。
:fansnaf 支持所有的常用数据库?这个看起来不错。
:Informatica专家1  是的。
:gbj001 数据质量的源头在哪里?
:Informatica专家2  业务系统、规则、标准等。
:jawen 对数据的清洗,可以支持不同的数据库操作吗?
:Informatica专家1  可以。
:hzzj 访问和清洗在任何数据源中的任何数据?
:Informatica专家2  可以。
:jawen 能给公司带来利润上的创收吗?
:Informatica专家2  当然。要看具体业务。
:网中虫 易用指的是哪方面?
:Informatica专家1  图形化开发,实时数据浏览,中间结果检查,交互式剖析。
:我心飞扬 关键是维度怎么定量化评测?
:Informatica专家2  不同企业定义的维度也不同的。
:fansnaf 这和数据挖掘有联系么?
:Informatica专家2  是数据挖掘的基础。
:平头 应用环境有限制吗?
:Informatica专家4  支持所有主流的数据库、平台等。
:lookout 在ETL过程中可以进行数据质量的检查吗?如何做?
:Informatica专家2  最好在ETL之间做一次数据剖析。
:lookout 制定好了数据库质量衡量规则,在ETL过程中如何运用?数据质量不高的数据是在那个阶段被发现和处理的?
:Informatica专家1  通过开发,将规则变成可运行的Mapping。数据质量不高,应该在企业范围的不同阶段都要考虑,很多企业是因为DW的报表不准确了,才想起数据质量问题,但是可能一开始就有问题了。
:网中虫 业内的标准哪里能查到?
:Informatica专家2  没什么质量标准的,只能根据法规和行业经验。
:lvwenxiu 有没有评估数据质量的手段和方法?
:Informatica专家1  Informatica数据质量工具提供相应的手段,包括剖析和量化评分等。
:mumx IDQ、ETL能否开放第三方开发接口获取IDQ分析结果?
:Informatica专家2  可以。想知道,怎么都会知道的。
:shuxin8168 Informatica与IBM相比较哪一块技术优势最大?
:Informatica专家2  平台整体性很大。不是分散的产品。
:hzzj 使用Informatica方法和预建数据质量能加速缩短部署时间?
:Informatica专家2  肯定的。这是工具平台的优势。
:wudk 中间结果检查对源数据库很大影响吧?
:Informatica专家1  不会,中间结果可以通过采样,限制数据传输量。
:hzzj 可以根据应用要求,按任何延迟或模式(例如,联合 SQL、Web 服务、消息收发、基于事件的警报和 ETL)获取、清洗和交付数据吗?
:Informatica专家1  可以,不同触发模式,不同接口,不同周期都可以。