打破数据统一的七大原则

发布人：发布时间：2017.07.11

数据统一在数据分析领域里是个长期的挑战，从事数据分析的从业者希望在数据分析之前，来自不同实体的数据能够在同一个地方呈现出来。数据统一由七部分组成：1、获取数据 2、清洗数据 3、转换数据、4、模式集成 5、重复数据删除、6、分类 7、导出

一般而言，企业实现数统一有两种方法，提取转换加载（ETL）和主数据管理（MDM）。

提取转换加载（ETL）具有灵活性的优势，适合不同的数据来源，使程序员可以手工编写转换程序，能够确保源数据模式与集中式数据仓库项目采用的全局模式匹配。但由于自动化程度低，提取转换加载带宽能超过20个数据源没有多少家公司。

主数据管理（MDM），它与ETL类似的地方在于，预设一个“主记录”，每一个有专门的类别选项。如客户、部件和供应商等的所有文件符合主记录格式。但和ETL有所区别的是，MOM不是使用手动的定制脚本，而是依靠一套“模糊合并”规则，把所有不同的文件转换成主格式。

可难解的是，在数据量过大的情况下，不管是ETL还是MDM，都无法解决数据统一难题。加上大数据集的庞大规模以及对程序员的苛刻要求任何的可规模化数据统一项目都必须在很大程度上实现自动化，不能依靠手动编写的程序。

著名计算机科学家、Tamr联合创始人兼首席技术官迈克尔·斯通布雷克（Michael Stonebraker）针对数据统一存在的限制难题，提出数据统一的七条原则。

一、所有的可规模化系统，都必须自动进行绝大多数的操作。

二、模式为先（schema-first）的产品永远无法规模化。唯一的选择是采用‘模式为后’（schema-last）的产品。

三、需要进行具体的域操作时，只有协作性的系统才可实现规模化。

四、为了实现可规模化，任何的统一计算必须在多个核心和多个处理器上运行。

五、尽管存在第四条原则，但真正的可扩展应用需要复杂性低于N ** 2的并行算法。

六、规则系统实现是无法规模化的。只有机器学习系统才能将规模扩展到大公司所需要的程度。

七、必须支持实时增量统一。

中嘉和信作为IDC行业内10多年的老牌企业，中嘉和信不断优化业务结构、完善自身的产品线，提升核心竞争力。从传统的IDC业务，拓展延伸到数据中心建设运营、云计算、CDN、企信通等方面，为用户提供基础设施、带宽资源、链路、数据中心、云服务、智能运维、CDN、容灾备份、安全服务等立体式一站解决方案，让处于不同阶段和规模的用户体验定制化、智能化云数据中心服务。2015年中嘉和信自建亦庄康盛云数据中心，首期已于2016年5月16日正式交付使用。

中嘉和信亦庄康盛云数据中心，位于北京亦庄经济技术开发区康定街11号院康盛工业园区。康盛云数据中心具备三大优势：地理位置优越，交通便利，距离亦庄线同济南路地铁站仅30米；电力优势，引入双路市电；网络优势，与互联网骨干路由万兆高速光纤互联，六线BGP带宽接入，整体建设参照T4级标准，机房总建筑面积11044.42㎡，大楼为框架结构，层高4.5米，机房地面承重1T/㎡，抗震强度八级，康盛机房值得你托付的机房！

相关文章推荐《服务器托管哪家好?服务器托管有什么优势吗?》

打破数据统一的七大原则

热门新闻