数据中心“百家讲坛”第十二课——大数据蕴含大宝藏

      演讲人介绍

    演讲人:姜炜
    职位:Informatica公司中国区高级技术顾问
    简介:毕业于吉林工业大学,2005年加盟Informatica公司,拥有Informatica资深级别认证。姜炜在制造业、税务等行业,从事了8年的商业智能、数据仓库项目建设,对数据集成、模型建设、数据展现等环节有深入的研究。

      演讲内容简介

      当大数据中所蕴藏的业务价值被越来越的企业用户所关注的同时,大数据的治理也面临着诸多现实挑战。由于具备大数据量、多结构化、增长速度快和价值密度低的特点,大数据治理需要借助新的技术手段和管理思路。

      informatica公司

    Informatica在世界各地已拥有超过4440家客户,范围涵盖航空航天、汽车、能源公共事业、娱乐、媒体、金融服务、医疗、生命科学、高科技、保险、制造、公共部门、零售、服务、电信、旅游、交通等行业。

      本期获奖名单

获得由Informatica公司提供U盘礼盒一个
 135****1282  Kent Jian Perficient公司 
 182****3690  王先生 Shell公司 
 010-62***026 刘先生 美国麦科捷科技有限公司 
 138****2737  孙女士 北京理工大学
 156****3546  彭先生 联华超市

135****6064  赵先生   中国华电集团
186****0681  王先生   河南省安阳市紫薇大道
158****6721  张先生   合生财富
186****5968  郑先生   深圳航空公司

获得由Informatica公司提供的精美笔记本电脑双肩背包一个。
138****1215  孙先生 北京拓尔思信息技术股份有限公司
133****3826  冯先生 龙游四海信息技术有限公司

关注"@数据中心百家讲坛"微博,掌握最新动态  
      Informatica技术顾问介绍
技术顾问1:姜炜
职位:Informatica公司中国区高级技术顾问

技术顾问2:杜绍森
职位:Informatica公司中国区高级技术顾问

技术顾问3:但彬
职位:Informatica公司中国区高级技术顾问
      精彩问答集锦
答:网界网客服 下午的课程是2点准时开始,感谢大家关注

答:网界网客服 本期的主题是:大数据蕴含大宝藏 演讲嘉宾是 Informatica技术专家

答:网界网客服 本期将产生12名幸运观众,获得有Informaitca提供的精美奖品

问:简蓝 在中国,你们有没有做过微博营销分析的项目?或者是其他针对在线访问数据进行分析的项目?在中国,你们有没有做过微博营销分析的项目?或者是其他针对在线访问数据进行分析的项目?
答:jm 目前中国还没有,这里面存在很多因素。 如果企业可以开放微博的人的信息,就可以和客户的数据结合关联,才会有意义。。

问:路秋生 大数据、海量数据之间有区别吗?大数据管理的关键技术主要是什么?谢谢。
答:Informatica专家一 听讲,下面有。

问:糖水橘子 大数据的治理与传统的数据治理有怎样的区别?如何有效控制大数据治理的成本?
答:Informatica专家一 馬上会讲到三个关键内容

问:tethy 自己感觉,不是取代的关系,是补充。
答: 下面会讲到,仔细听。。这两者之间的关系

问:eXtremeDB的诱惑 哪里下载ppt?
答:Informatica客服 PPT我们会在直播后进行整理,由Informatica专家提供给大家

问:tethy RDBMS重交易,重一致性
答: Big Data并不是一定针对非结构化,传统技术一样可以处理非结构化。 Big Data主要是量,多样化和高处理性能。这种量可能不是RDBMS能够处理的了的。

问:zhaoxian 数据库建设无疑是企业IT预算的大头。一个项目建设花费掉上千万在中国许多企业是非常正常的事情。然而我们看得到的是大数据的建设其花费肯定将不会低于原来传统关系型数据库的花费。 如何解决这种局面?
答:Informatica专家一 大数据是一项技术,整体规划只要考虑这块的技术特点就可以。完成的目标很明确,海量\复杂的数据,要高效的计算处理。

问:tethy 做big data肯定要追加IT投资,关键是他能取得什么收益?
答:Informatica专家一 当达到一定规模时,Big Data的技术才能体现出成本的经济。如果是小规模,大数据技术不一定合适,也显不它的威力。

问:tethy 当然也有目标为降低成本的big data 方法?
答: 当关系数据库处理不了的量级时,Big data才会有意义。

问:克强 如何使数据丢失的隐患从根本上消除?
答:Informatica专家一 日志对我们来说是一种非结构化处理,可以处理成为可用数据。但不涉及到管理的层面。

问:keke_sun 现在用Hadoop对大量非结构化数据进行存储已经可以实现,但是分析和利用好像还没开始。请问专家:如何能够更加有效地利用这些保存下来的大数据?从何处入手比较好呢?
答:Informatica专家一 Big Data有自己的技术特点,模弄结构也会不同。所以,可能要重新考虑技术这块,但业务规则是不变的。

问:bull 海量数据有没有最低要求?
答: 没有,主要是从成本和现在关系数据库是否能处理的了的量级上。

问:eXtremeDB的诱惑 Informatica有自己的数据管理系统么?
答:Informatica专家一 Informatica重点解决大数据处理能力,包括大数据的连接和解析,同时让用户感觉跟操作普通ETL工具一样进行处理。我们不作数据库,只作数据自然属性的处理。

问:liuzeshan 请谈谈大数据和云计算的关系?
答:Informatica专家3 大数据可以是基础,云可以从应用角度去理解,两者是相互补充的关系。

问:学习的力量 姜老师: 电子商务中的“点击流”具体指什么?
答:Informatica专家一 网站会统计用户的点击热点,有针对性的投放新闻、热点、商品、广告等。

问:吉格斯 有没有在通信领域大数据处理的应用案例?
答: 国外有,像T-mobile是我所知道的。。但中国移动好像只是在研究学习,是否在生产上应用,不清楚。

问:糖水橘子 讲了这么多,请问专家,我们应该怎样评估大数据项目的收益?怎样将它与企业的业务目标联系起来?
答:Informatica专家一 不管是不是大数据,收益的评估是一个治理过程,需要根据项目和企业目标结合。比如期望通过收集社交信息,获得客户对产品的好感程度,具体的收益评估不是一个IT问题,是业务问题,IT技术只是提供支撑。

问:ll0012 交易数据和文本数据处理方式容易想到,但视频数据如何有效处理,获取信息。
答:Informatica专家一 视频数据处理不容易,成本也会较高。。如果非要处理,ViaVoice都是语音处理技术。。不过,是否有必要提取视频内的数据,需要着重考虑的。性价比。。是否值。

问:jurin000 现在的很多数据都是海量的非结构化的数据,而且非集中式,是分布式的,Big Data对此有什么优势吗?
答:Informatica专家一 Informatica侧重为数据分析提供数据预处理,提供有价值的数据给各种业务和分析。

问:学习的力量 互动类的数据的确是非常值得重视的,但是如何能够提取到是个技术问题?
答:Informatica专家一 Big Data可以支持海量存储和冗错等,但要利用些非结构化数据,后面有一些相应技术介绍。

问:学习的力量 舆情?Informatica 提供舆情的解决方案吗?
答:Informatica专家一 可以提供舆情数据的处理,这也是大数据的典型应用。

问:keke_sun Informatica与Hadoop的集成紧密度如何?现在有没有能够公开的应用案例?
答:Informatica专家一 只是存储,这个Hadoop就很容易处理。。但要提取里抽有内容,得有语音识别技术的介入。

问:chinafengkun 有没有Hadoop处理海量视频的案例,我有类似项目,谢谢!
答:Informatica专家一 这个请联系Informatica 市场部。。需要从国处去了解。

问:mengqinghua2011 Informatica的优势是什么?
答:Informatica专家3 图形化的设计和成熟的接口。。。这就不用大家去写类似Mapreduce的程序了。。减少了复杂度,提高了性能等。。

问:学习的力量 如何做到接入Facebook数据
答:Informatica专家3 Informatica 有产品叫 PowerExchange for Facebook,可以直接接入。

问:学习的力量 能详细解释MDM吗?
答:Informatica专家一 MDM是主数据管理,重点治理企业主数据领域的问题,比如系统间数据的一致性,企业内主数据治理,数据访问和发布,系统间数据信任规则等等。

问:wanchun 我公司目前数据量不是太大,请问如何为今后的大量数据做准备呢?
答:Informatica专家一 数据量不大,可以先研究和学习。

问:盆盆 Informatica的大数据解决方案在中国的保险行业有没有成功部署的案例?
答:Informatica专家3 目前没有。因为国内Big Data还处于前期阶段。

问:学习的力量 在问一个问题,Informatica 作为一个国外的公司,在中文信息集成和处理方面有什么独有的技术
答:Informatica专家一 Informatica支持全球语言,特别的领域,比如模糊匹配、语义解析等,提供本地语言支持的包。

问:学习的力量 Informatica的产品是什么语言开发的 java吗
答:Informatica专家3 底层是C++,外面用JAVA包装了管理界面。

问:学习的力量 是否支持跨平台?
答:Informatica客服 支持

问:杰夫 我们单位是区级教育系统的小网站,存储系统的相关数据,也有视频等较大个头的信息,目前来看用硬盘存储还够用,以后可能会需要用到大数据的存储,不知道有没有适应象我们这样小单位的方案?
答:Informatica专家一 有的。详细信息请联系Informatica市场部。

问:pengjuan 我们公司有一定的数据量了,请问如何部署,完成硬件资源的高利用率(用PC集群?负载均衡)
答:Informatica专家3 Hadoop技术比较好,是大规划PC集群,自己管理冗余和负载。

问:szyouer 数据库系统应如何负载平衡?
答:Informatica专家一 Informatica支持负载均衡的数据库技术,比如RAC或者其他并行技术等。那都是数据库的技术,Informatica可以充分利用数据库的能力。

问:学习的力量 刚才说了的用户的评论,反馈和点击等包含倾向性,Informatica的情感倾向性的性能能做到什么程度?
答:Informatica专家一 只能提取到这些数据,包括人的信息,与企业内客户数据匹配。。。至于如何后续分析,不是我们的内容

问:Doris liu 请问,Informatica9.5貌似提升了对多种数据格式的支持,那么BLOB是否支持呢?
答:Informatica专家一 Blob 早就可以支持的。

问:bull 可以解析中文吗?
答:Informatica专家3 可以。。这个没问题。

问:学习的力量 Informatica的产品是基于开源Hadoop的框架实现的吗?还是自己原创的核心技术?
答:Informatica专家一 Hadoop框架是开源,但是在框架上进行完善,以实现了我们自己的特定功能需求。

问:erli Informatica在大数据上主要专注于哪些方面?
答:Informatica专家一 专注网络数据源的接入和Hadoop的支持。

问:applephone 如何解决跨多个社交媒体间的客户识别问题,从而创建出统一的客户社交资料,然后通过社交客户主管功能与客户的企业资料结合,获得更清晰完整的客户资料?
答:Informatica专家一 Informatica IR提供客户识别能力,可以通过定制规则,特别是在实名制后,可以实现客户识别和统一管理。

问:applephone 如何做到将客户的企业资料信息与其社交网络应用相结合,从而形成更为紧密、更具盈利性的客户关系?
答:网界网客服 Informatica有很强的模糊匹配技术,可用于你的需要。

问:zhaoxian 如何做到以更佳的成本效益方式加强社交媒体分析,并将碎片化的个体拼接为完整的个体,以实现有实际意义的交互分析?
答:Informatica专家一 我觉得几个方面的技术是有益的:身份识别,关联分析,语义分析,关键词提取。

问:zhaoxian 能否做到在大数据中快速解决个体识别问题,比如客户识别?
答:Informatica专家3 可以。。有类似的数据模糊识别技术。。这已经是比较成熟的技术了。

问:nova 是需要单独针对用户、行业单独开发还是现成的产品使用?
答:Informatica专家一 有基础平台,需要根据具体需求定制。Informatica的价值就是使定制过程加速,同时保证可维护性。

问:学习的力量 提到大数据整合,如果被整合的数据源无法访问到其数据库Informatica有什么其他技术手段来整合吗?
答:Informatica专家3 借签数据治理的思想,来好好规划一下。。包括了很多内容。

问:学习的力量 身份识别,关联分析,语义分析,关键词提取:其中关键词提取 你们有什么核心技术吗?特别是针对中文的语义理解
答:Informatica专家一 这个主要是字典表的建立,也就是规则的建立。。。我们在中国的医疗系统中应用了很多这类的技术。

问:学习的力量 刚才提到了海量交易数据都通过RDBMS+OLTP实现,那么对于海量交互数据基本都是异构的非结构化数据,请问该如何联合使用和分析呢?
答:Informatica客服 讲座中有提到针对非结构化和半结构化数据的抽取技术。。将里面有价值的数据抽取后,和企业内的数据,进行数据的匹配,这样才可以结合分析和利用。

问:安全无阻 能介绍石油化工行业大数据应用情况吗?
答:Informatica专家一 可以访问Informatica公司网站了解一下

问:学习的力量 大数据,海量数据具体有什么区别?
答:Informatica专家一 海量只是大数据的一个特点。。只是分支。

问:学习的力量 想启动大数据方面的项目,该如何启动项目呢?该如何划分阶段呢?
答:Informatica专家一 启动之前,关键还是分析业务上需要得到什么,需要什么样的数据支持,需要哪些技术手段;然后是平台考察,比如数据采集平台,大数据处理平台,存储平台,分析平台,业务整合平台等;然后是具体需求和技术方案,以及实施、上线、评估等

问:吉格斯 Informatica是否可以支持通信中的海量视频、音频数据呢?
答:Informatica专家一 可以处理,但如果要提取里面的内容,需要额外的方案。

问:学习的力量 还有的专家说大数据有第4个V,即Value,请问有价值吗?
答:Informatica专家3 哈,3V最终目标是Value

问:郑咏 如果仅仅是海量的结构化数据,直接用ETL工具就可以了,有必要用大数据吗
答:Informatica专家一 ETL也要面临大数据问题,ETL工具是否支持海量数据处理,是否能实现未来的扩展能力,如何提高性能价格比等。

问:liliya 敢问,多大才算“大数据”?
答:Informatica专家3 关系数据库处理不了时。。就是你一个SQL到数据库很难出结果。。哈。

问:学习的力量 讲座中提到大数据的应用是提取数据背后的价值,这种海量数据中价值的提取,一般需要多少设备来支持海量数据的计算?大概投资需要多少
答:Informatica专家一 这个需要根据具体情况评估,大数据时代为什么引入Hadoop就是考虑成本和海量并行处理的需求

问:phdbrianlee Informatica 海量存储方案是怎么样的呢?
答:Informatica专家一 我们不作存储,只作数据处理。。。

问:zhaoxian 任何一种新技术的出现都要面临许许多多的挑战,大数据也是一样。只有那种能够给企业带来实际价值的技术才有真正的生命力。任何企业绝对不会为了采用新技术而应用新技术,技术最终的落脚点一定是实现业务价值。 专家对此有何见解?
答:Informatica专家一 很对。需要一定的时间来验证和成熟化。

问:Doris liu 我刚才没说清楚问题,旧版本的Informatica PowerExchange是不支持BLOB的,那么9.5版本的PowerExchange是否支持BLOB或者视频、音频这些类型的数据呢?
答:Informatica专家3 不是用Powerexchange来支持的。。以前PowerCenter就可以支持,现在的网络视频类的数据,采用的是流技术。。所以,可以支持。

问:学习的力量 针对物联网数据,基本都是传感器网络数据,这种数据如何采集呢
答:Informatica专家一 推荐Hadoop平台来存储和处理数据。

问:鹰钩鼻 Informatica是怎么利用Hadoop技术来处理数据的?是把Infa安装在每台Hadoop的节点上么?各几点怎么分发job和并行工作?
答:Informatica专家一 传感器数据的采集是从智能设备上的存储空间获取的,不同的设备可能需要不同的方法,比如接入传统网络的智能设备可以联网采集,脱机设备只能定期采集。