驾驭大数据浪潮：数据参量化在数据仓库和数据湖中的应用 (驾驭大数据包含哪些难题)

文章编号：11131时间：2024-09-30人气：

引言

在大数据时代，组织面临着管理和分析海量数据的巨大挑战。数据参量化是一种强大的技术，可以帮助组织克服这些挑战，从其数据资产中获得有价值的见解。

驾驭大数据包含哪些难题

驾驭大数据时，组织面临着以下主要难题：

数据量大：大数据数据集通常非常庞大，可能达到数TB或PB。

数据类型多样：大数据数据集包含各种各样的数据类型，包括结构化、非结构化和半结构化数据。
数据处理复杂：分析大维护：更容易添加新数据或更新现有数据。
支持复杂的分析：参量化数据允许组织执行复杂的数据分析，例如建模和预测。

数据参量化在数据湖中的应用

数据湖是存储原始数据的大型数据集，包括结构化和非结构化数据。数据参量化在数据湖中也有着重要作用，因为它可以：

提高数据质量：通过删除无效数据和标准化数据值，可以提高数据湖中数据的质量。
支持探索性分析：参量化数据使组织能够执行探索性分析，发现数据中的模式和趋势。
简化数据迁移：当组织需要将数据从数据湖迁移到其他系统时，参量化数据可以简化此过程。

数据参量化工具和技术

有各种工具和技术可以用来进行数据参量化，包括：

质量规则：实施数据质量规则以确保数据准确和一致。

定期监视和维护：定期监视您的数据参量化流程并进行必要的调整以保持其最佳性能。

结论

数据参量化是驾驭大数据浪潮并释放其价值的强大工具。通过将原始数据转换为标准化格式，组织可以提高查询性能、简化数据维护并支持复杂的分析。通过采用数据参量化，组织可以提高其数据管理实践，并从其数据资产中获得更深入的见解。

数据中台、数据平台、数据湖、数据仓库傻傻分不清楚？带你一文理清

在数字化转型的浪潮中，数据管理工具经历了从数据库到数据仓库、数据集市、数据湖，再到大数据平台和数据中台的演进。这些阶段并非简单的替代关系，而是各自具有独特的功能和应用场景。驱动这一转变的因素包括业务模式的快速迭代、数据量的膨胀以及新兴技术的发展。数据和大数据的区别在于规模、处理速度、类型和价值密度。大数据的出现是为了处理海量、快速流转、多样且价值密度较低的数据，以挖掘有价值的信息。数据分析与数据挖掘是处理数据的不同方法，前者是提取信息，后者是深入挖掘数据中的隐藏模式。数据库是数据存储的核心，分为关系型和非关系型，如关系数据库（如Oracle, MySQL）和NoSQL数据库（如HBase, Redis）。数据仓库则是为满足决策分析而专门设计的，存储历史数据，支持多维度查询和分析，如Oracle Data Warehouse。数据集市是为特定部门或用户提供定制化的数据分析，既有独立型（灵活但可能造成数据孤岛）和从属型（稳定但开发周期长）之分。数据湖则是一个存储原始数据的仓库，支持不同类型的分析，具有高度的灵活性和可扩展性，如Amazon S3和Azure Data Lake。数据中台作为最新阶段，更注重快速响应业务需求，将数据转化为直接服务于业务的应用能力。它与数据平台、仓库和湖的区别在于服务方式和业务价值的直接性。总结来说，这些数据管理工具各有侧重点，理解它们的特性有助于在实际应用中做出合适的选择。如果您在架构选择上有疑问，专业的咨询团队如我们公司（联系信息省略）可提供帮助，我们专注于提供优质服务和优惠的上云方案。

复杂与失控的现实大数据平台的思考

复杂与失控的现实：大数据平台的思考“在大数据行业干了这么些年，我相信大家都有一种在泥潭中挣扎的感觉。要搞清楚到底有哪些数据、数据的结构、数据的来源、数据的意义、数据的上下文、数据的质量、数据可能有哪些局限性等等，都是非常麻烦的事情。在大多数情况下我们会发现数据的元数据缺失，数据的说明文档不存在或者文档有用的内容很少。为了某一个新任务要把数据搞清楚，我们可能需要咨询很多不同的人，每个人对数据的说法都不完全一致，当所有相关方都沟通了几次后，我们才大致把数据的概貌搞清楚。而这仅仅是完成了第一步，后面的数据处理、数据探索、特征工程、分析建模、生产应用还有无数的迷宫的需要探索。自然，面对这些问题，我们会想能不能有一个平台把数据以及数据利用的各个环节都有效管起来，让我们可以很轻松的把数据的来龙去脉搞清楚，借助各种强大的功能非常方便的让我们把数据处理、数据探索、特征工程、分析建模乃至生产应用都轻松的解决。总之，我们希望这个平台能把一切都管起来，把一切关于数据、项目和工程的信息都管起来。使用者只需要在这个平台上就能获得关于数据的一切信息，并能够获得各种运用数据的能力。这可以说是数据平台的终极理想。但是最近半年来，我对这个终极理想产生了比较大的疑惑，感觉追求这一目标可能是“理性的自负”。复杂与失控的现实复杂的大数据：“首先，大数据本身就是极其复杂的，不仅在于规模、维度、类型，也在于其各种变化和各种不完美。而且大数据还在日复一日的变得更大、更复杂、更快，要把所有数据以及所有数据的所有方面全部都搞清楚，恐怕是非常困难的，很可能已经是人力不可及的事情。可能必须得承认，我们对大数据的控制能力是有限的，大数据很大程度上对于人类来说就是失控的。很直接的一个例子就是“数据湖”，显然“数据湖”失去了传统数据库和数据仓库那种井井有条的规范美。 “数据湖”基本上就是把所有可以收集到的数据堆放在一起，并没有非常规范的管理。并不是人们不想管理，而是事实上是做不到的，只能向现实妥协。当然，这种妥协很大程度上是可能是自发的而不是自觉的。可能很多人也认为“数据湖”只是一种过渡，我们还在等待更强大的数据管理和数据治理的技术、工具、平台和方法论的出现。但是，人的智力和精力终归是有限的，如果我们期望能为所有数据都建立非常良好的文档和谱系来进行管理，并且能够得到及时的维护更新，需要投入的人力可能是无法承受的。而且如何保证这些管理的质量?只做形式审查是比较容易的，但是无法正真保证管理文档的内容质量，但是实质审查实际上又是不可能做到的。因此，很可能我们根本没有办法对大数据建立起传统意义中的管理体系。 ”复杂的技术：“其次，技术上的问题也是非常复杂的。技术问题的复杂性主要来自于各种技术本身的不完备性，任何技术都只能解决某一类型的问题。但是一个通用的数据平台，至少需要考虑能解决大部分的常见需求，这就意味着必须要将不同的技术整合到一起。多种技术的整合是非常考验系统工程能力的，这是要过的第一关。但更大困难在于技术的快速发展，新技术、新开源项目不断涌现，既有技术和项目有些持续发展、不断更新，有的逐步衰退。这种情况下，如何能够保证平台本身在技术上能跟上时代是个非常困难的问题。一个系统的结构一旦确定，就会形成路径依赖，随着时间的推移，会变得越来越难以变动，越来越难以将新技术整合进来。另外，即使技术本身不变化、功能不变化，但是处理的数据规模不同、质量不同、具体的资源规模和配置都会有很大的不同。处理大数据难点在于如何用有限的资源和能力来处理规模巨大的问题。同样的处理逻辑，但是数据规模的不同，有效的处理方法可能就有很不同。而这是预设功能难以全面考虑清楚的。综上，大数据平台面对的技术问题也是开放性的，或者说也是失控的，我们执着于技术和功能层面的大一统也很可能是“理性的自负”。大数据平台设计哲学的重构面对大数据，在数据和技术都失控的情况下，考虑如何强加对数据的控制和提高驾驭数据的能力都很可能是徒劳的。我们需要重新思考大数据平台的设计哲学，而不是在传统大型软件设计的哲学下做加强和修补。对于此，TalkingData首席数据科学家张夏天有一些思考。拥抱不完美：“首先，我们必须承认我们的无知和无能，放弃去构建一个全知全能的平台的理想。我们需要思考大数据平台要管什么，更重要的是不管什么。我们需要在该放手的地方就放手，我们需要接受甚至是拥抱某种程度的失控。我们很可能就没有办法把所有数据都非常好的管起来，只需要通过平台，新手就很容易把数据情况搞清楚。我们很可能也无法提供完全统一设计风格、交互逻辑的功能界面。我们必须容忍一定的混乱，从而拥抱无限的可能和变化。 ”经验与价值的沉淀：“还是先从数据来看，了解数据最便捷的途径就是找到最了解这个数据的人进行直接沟通。最了解数据的人可能是数据的生产者，也可能是数据的处理者，甚至是消费者。很多情况下完全搞清楚，可能需要与所有相关方都进行沟通后才比较清楚。平台的设计到底是要消除这种直接沟通，还是让这种沟通更有效率呢?因为全面文档化是不现实的，那么我们能够考虑的是让目前的方式效率更高。数据平台能够承担的一个功能是更有效的把数据的需求方和了解数据的人连接起来。原来我想找一个了解某个数据的人，都可能需要问好几个人，而要了解清楚一个数据又可能需要找到好几个人，这就需要不断在线下反复的沟通。如果平台能够告诉我哪些人对这些数据最了解，这就可以提升相当多的效率。当一个人一位对某个数据最了解，而被人问了很多次问到很烦的时候，他可以把自己对这个数据的总结的文档和FQA放到平台上。对这个数据关心的人也可以写评论谈自己对数据的理解和遇到的坑。当一个数据被使用的越多，那么平台上就可以沉淀出越多关于这个数据的信息，包括最熟悉的人和各种对数据的描述和解读，后来的使用者就越容易掌握这个数据。我们可以想象，一个数据平台，经过一段时间的沉淀，有些数据的相关文档会变得十分丰富，而有些数据根本无人问津。当我们不追求全面的控制后，最有价值的信息可能就自动涌现了。当然，当我们要使用一些鲜有人问津的数据时，就需要经历一个比较痛苦的过程。但是只要平台能把这个过程积累到的经验沉淀下来，就是有价值的。 ”从标准化到社区化：“利用大数据是需要探索精神的，大数据平台不应该是一条机械的流水线，把使用者变成一个个没有联系的随时可以替换掉的零部件。因为我们不可能做成真正构建这样有效率的流水线。同时，我们几乎无法用一套客观的量化指标来衡量对数据的利用效率，我们必须寄希望于人的主动精神。大数据平台的设计哲学应该以人为中心，尊重人的价值，激励人的探索和创新精神，让对数据有激情的人能够涌现出来，产生更大的声音，同时鼓励和便利人与人之间的沟通，从而提高总体的效率。总之，平台设计思想应该从标准化转为社区化。 ”弹性与开放：“从技术上来看，我们需要尽可能的适应各种不同的功能和性能需求以及未来可能出现的技术演进。为了解决这个问题，我们需要的不是一个结构复杂包罗万象的技术架构，因为越复杂的系统就越脆弱，就越难以进化。我们也不能绑定核心计算引擎就是Spark或者某几种特定技术，否则这就不是一个能力全面的数据平台。很多为自有业务设计的数据平台是可以考虑业务特性来进行特化的。但是我们作为企业服务的提供商，需要考虑的是足够的通用性和灵活性。我们在技术架构的设计哲学上，不应该执着于提供多少强大的功能，而是应该专注于能够提供多少可能性和可扩展性。我们永远无法知道明天客户会有什么新需求，也无法知道会有什么新技术出现。因此在技术架构上，应该以容器技术为基础，实现弹性的资源管理，和对技术和功能的开放支持能力。在容器技术的支持下，可以做到不同计算资源的即开即用即回收，可以支持资源的动态智能调整。当一个任务需要Spark时就创建Spark集群，需要TensorFlow就创建TensorFlow集群，任务完成就可以把资源及时回收，任务过程中根据资源使用情况和任务完成要求，动态的增加或者减少资源。这种架构下，我们不是将各种技术能力整合封装成各种固定功能提供给使用者将他们的工作傻瓜化，而是向使用者赋能为其开放各种技术能力以及资源能力去创造无限的可能性。这种架构下很难提供统一的界面设计风格、交互逻辑，很多工作也需要使用者开发完成。因为我们无法做到对所有的技术进行统一风格的封装，而是把所有的技术直接暴露给了使用者，使用者必须自己使用这些技术来解决问题。当然这并不是说我们不需要做产品设计，只是产品设计的出发点不是创造一套独立完美的体系，而是应该着力于让使用者更容易的将不同的技术方便的组织起来，同时减少在不同技术之间切换的麻烦。同时，技术架构也需要考虑不同模块之间如何组织的问题，这个问题遵循服务化的思路应该是已经形成共识，这里就不再过多展开。只是个人觉得在推行服务化之前，我们需要把服务接口的标准、服务总线的技术定下来。有好的服务基础架构，新增、替换、升级不同的模块就变得相对容易。从需求角度确定的功能和模块不可能是百分之百正确的，后续一定会面临着重构和调整的问题。只有做好面对一切变化的准备，才能更好的面对各种不确定性。 ”适应而不是约束：“最后，我想谈谈关于方法论的问题。产品设计方法论先行是对的，但是我们要深入思考什么才是有效的方法论。关于数据挖掘的方法论已经存在十几年了(CRISP-DM)，老实说我们在思考的数据科学的方法论并不会有本质性的改变。但我对这些方法论的感觉就是“如何把大象放进冰箱”，或者5步画马法。原则上都对，但是对实际工作的指导意义非常有限，因为魔鬼都在细节中。其实面对大数据，不仅我们对数据和技术是失控的，实际上我们如何处理、应用数据的过程在很大程度上也是失控的。整个过程就像在走迷宫，工作步骤分形似的不断展开。任何大的指导原则对于具体工作的指导意义就变得极为有限。正因为如此，产品设计应该考虑的是如何适应这种Ad-hoc的工作状态，而不是用一套流程把使用者束缚起来。我们可以提供一些机制便于使用者来梳理手头的工作，但是尽可能不要去强制使用者遵守某种约束性很强的标准或者规范。为什么像NoteBook这样设计如此简单的工具能够流行起来，很重要的一点就是给使用者足够自由的工作界面来做任何想做的事情，而且即写即得，便于随时修改策略，同时文档可以根据需要随时插在代码之中。正是这种无结构的扁平性，使得用户可以按照最合适的路径去完成自己的工作，而不是在被设计好的过程中挣扎。 ”总结“写了这么多，其实核心想说的就是我们必须警惕“理性的自负”。我们首先必须承认理性的力量是有限的，我们不是无所不能的。面对着数据失控、技术失控和需求失控的问题，我们到底是要想尽一切办法去控制，还是顺应、包容甚至是欣赏这些失控。这是在我们智能数据平台研发道路的起点上需要思考的问题。 ”

大数据管理与应用专业适合女生吗

大数据管理与应用专业适合女生。

性别不应该成为选择专业的限制因素，女性在科学技术领域同样可以取得出色的成就。性别与从事某个专业或职业是否合适并无直接关联。大数据管理与应用专业涉及的工作主要涉及数据分析、数据挖掘、数据管理和数据应用等方面的技能和知识。性别并不影响女性在这些领域中发展的能力和潜力。

大数据管理与应用专业具有广阔的职业前景和就业机会，这是一个快速发展的领域，需要大量具备数据分析和管理能力的人才。无论是男性还是女性，只要对数据分析和管理感兴趣，并且具备相应的学习能力和技术背景，都可以在这个专业中取得优秀的成绩并获得就业机会。

在大数据领域，越来越多的女性在取得优秀的成果和贡献。女性在数据分析、机器学习和数据科学等领域中展现出的才华和创新力也得到了广泛认可。女生在大数据管理与应用专业中有以下优势：与男性不同的思维方式、细致入微的观察力、良好的沟通能力以及对可视化设计和用户体验的关注等。这些优势可以为女生在数据分析和应用项目中提供独特的视角和思考方式。

性别平等和多样性对于团队合作的成功至关重要。女生在与男生一起学习和工作时，可以更好地发挥团队的多元化和协同效应。大数据管理与应用专业是一个男女生都能够选择和发展的领域。性别不应该成为女生选择专业的限制因素，重要的是对该专业的兴趣和学习能力。性别平等和多样性对于推动科学技术的发展和创新有着积极的影响。

大数据管理与应用专业简介

课程设置，大数据管理与应用专业的课程设置较为综合，包括数据库管理、数据挖掘、机器学习、数据可视化、大数据平台与技术、云计算等。学生将学习数据采集、存储、处理、分析和应用等方面的知识和技能。

数据管理，该专业强调数据的管理和整合，学生将学习数据架构设计、数据仓库和数据湖的建设与管理、数据质量控制、数据安全与隐私保护等内容。这有助于培养学生在大数据环境中有效管理和运用数据。

技术与实践，大数据管理与应用专业也注重技术和实践的培养。学生将学习大数据平台和技术工具的使用，进行实践项目，如数据分析任务、大数据系统搭建等，以提升对大数据技术的实际应用能力。

为何有人说数据将成为无价之宝？

首先要知道数据从何而来，才能知道数据如何产生价值。现在的数据是指所能收集到的所有信息统称为数据，数据的生成包含方方面面，比如人类活动可以产生数据，大自然春夏秋冬变化也能产生数据，甚至一颗树木的生长过程也能产生数据。数据本身如果不能应用，就没有价值，如果吧数据应用起来，就能产生无限的价值。同类数据量越大，通过数据分析也就能产生更大的价值。这些价值也可以应用于各种领域，涵盖我们的衣食住行。数据能创造无限可能那就是当之无愧的无价之宝。

大家好，我是科技 1加1！感觉这个问题很有意思！是啊，当前什么最值钱，要我说就是数据！

这个问题分两方面来回答

1.什么是数据定义:

数据是指对客观事件进行记录并可以鉴别的符号，是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。

它不仅指狭义上的数字，还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等，也是客观事物的属性、数量、位置及其相互关系的抽象表示。例如，“0、1、2...`”、“阴、雨、下降、气温”“学生的档案记录、货物的运输情况”等都是数据。数据经过加工后就成为信息。

在计算机科学中，数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称，是用于输入电子计算机进行处理，具有一定意义的数字、字母、符号和模拟量等的通称。现在计算机存储和处理的对象十分广泛，表示这些对象的数据也随之变得越来越复杂。

信息

信息与数据既有联系，又有区别。数据是信息的表现形式和载体，可以是符号、文字、数字、语音、图像、视频等。而信息是数据的内涵，信息是加载于数据之上，对数据作具有含义的解释。数据和信息是不可分离的，信息依赖数据来表达，数据则生动具体表达出信息。数据是符号，是物理性的，信息是对数据进行加工处理之后所得到的并对决策产生影响的数据，是逻辑性和观念性的；数据是信息的表现形式，信息是数据有意义的表示。数据是信息的表达、载体，信息是数据的内涵，是形与质的关系。数据本身没有意义，数据只有对实体行为产生影响时才成为信息。

数据的语义

数据的表现形式还不能完全表达其内容，需要经过解释，数据和关于数据的解释是不可分的。例如，93是一个数据，可以是一个同学某门课的成绩，也可以使某个人的体重，还可以是计算机系2013级的学生人数。数据的解释是指对数据含义的说明，数据的含义称为数据的语义，数据与其语义是不可分的。

分类

按性质分为

①定位的，如各种坐标数据；

②定性的，如表示事物属性的数据（居民地、河流、道路等）；

③定量的，反映事物数量特征的数据，如长度、面积、体积等几何量或重量、速度等物理量；

④定时的，反映事物时间特性的数据，如年、月、日、时、分、秒等。

按表现形式分为

①数字数据，如各种统计或量测数据。数字数据在某个区间内是离散的值[3] ；

②模拟数据，由连续函数组成，是指在某个区间连续变化的物理量，又可以分为图形数据（如点、线、面）、符号数据、文字数据和图像数据等，如声音的大小和温度的变化等。

2.数据的重要性

如今，大数据早已经不是一个陌生的名词，很多的行业在使用大数据之后都得到了非常好的效果，大数据与互联网相辅相承，互联依赖，并且不断的在快速发展。

互联网上的数据每年增长40%，每两年便将翻一番左右，而目前世界上90%以上的数据是最近几年才产生的。据IDC预测，到明年全球将总共拥有35ZB的数据量，互联网是大数据发展的前哨阵地，随着互联网时代的发展，人们似乎都习惯了将自己的生活通过网络进行数据化，方便分享以及记录并回忆。

大数据围绕在我们生活的很多方面

大数据围绕在我们生活的方方面面，最直观的反映在我们每天都会使用的社交工具上面。例如腾讯拥有用户关系数据和基于此产生的社交数据，这些数据能够分析人们的生活和行为，从里面挖掘出政治、社会、文化、商业、健康等领域的信息，甚至预测未来。说简单一点，就是我们每天都在通过自己的QQ、微信、微博更新自己的动态、朋友圈等，这些都将构成一种数据，大数据就是可以通过你更新的这些大量的信息，推测出你的爱好，你的工作，你的住址，你的收入情况等等这些信息。

互联网时代大数据有多厉害

互联网时代大数据到底有多厉害？大数据就像蕴藏能量的煤矿，煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类，而露天煤矿、深山煤矿的挖掘成本又不一样，和这个相像，大数据并不在于“大”，而在于“有用”，价值含量、挖掘成本比数量更为重要。大数据应用工程师专业主要学习WEB技术、JAVA、JSP、大型数据库Oracle、LINUX集群、非关系数据库NoSql、Hadoop等技术，通过这些课程的学习，让学生具有JAVAEE开发能力的同时能够进行大数据的分析和挖掘能，学生在就业的过程中即可以进入传统的软件公司，进行OA和ERP等传统软件项目开发，同时也能进行大数据的分析和大数据深度挖掘以及对服务器集群的组建等。

大数据时代，我们要合理利用大数据，才可以创造更高的工作效率，才可以创造更多的财富。

所以说数据就是金钱！掌握了大数据就是掌握了财富！

感谢大家的阅读！

数据自身是没有价值或者说微乎其微的，价值是被赋予的，就像黄金一样，黄金的价值是他的应用前景或场景。

数据的价值就是数据能力体现出的收益，或者说投资回报率。

今天我们就来聊聊数据能力和价值。说到大数据就不得不提数据仓库，企业数据仓库演化至最终阶段或许会变为大脑中枢神经，如果要支撑起整个复杂的大脑和神经系统，需要一系列的复杂机制配合。

一、抽象的数据能力架构

我把数据能力抽象概括为四个方向：传输能力、计算能力、算法能力和数据资产量级，后面会讲述在这四个能力之上泛化出的数据应用和价值。

1. 数据传输能力

数据大部分的使用场景必然会涉及到数据传输，数据传输性能决定了部分应用场景的实现，数据实时的调用、加工、算法推荐和预测等；而传输抽象出来的支撑体系是底层的数据存储架构（当然非同机房的传输还要考虑到网络环境等。单纯的小数据量调用等一般不会涉及到这些，但数据量级大、高并发且对SLA要求非常严格的时候，就是对数据传输能力的考验）。

从产品的角度我把数据传输能力分解为：底层数据传输效率和应用层数据传输效率。

底层的数据传输效率是指数据源进入后的预处理阶段的传输效率，即加工为产品所需的数据交付物之前阶段。

Ps:数据在可为产品所用之前需要很长的一段加工过程，应用层数据产品基本不涵盖底层数据加工环节，而数据产品会用到规定好的数据交付物（即已约定好的结构化或标准化的数据），而利用此数据交付物再经过产品对实际应用场景的匹配和加工来提供数据服务。即使涉及底层数据管理的相关产品也是对Meta元数据、使用日志或写好的shell等的调用。

底层数据加工计算所涉及到的传输效率，直接决定了支撑数据产品高性能、高可靠的自身需求；而应用层的传输影响了用户体验和场景实现。传输机制和体系就像毛细血管一样遍布全身错综复杂，但是流通速率直接决定了大脑供氧是否充足。 2. 数据计算能力

数据计算能力就像造血系统一样，根据多种来源的养分原料进行生产加工最终产出血液。而源数据通过高性能的底层多存储的分布式技术架构进行ETL(抽取、转换、装载)清洗后产出的是数据中间层通用化的结构化数据交付物。计算速度就像造血速度一样，决定了供应量。而计算速度直接决定了数据应用的时效性和应用场景。

目前最多最普遍的就是离线数仓，离线数仓大部分担任着事后诸葛亮的角色，即没办法保证数据的及时性而延后了数据分析及应用的产出，导致更多的是沉淀经验而难以做到实时决策。而实时数仓，甚至说对Data Lake（数据湖）的实时处理已经逐步开放应用多种场景。我们先不考虑越来越强烈的实时性要求带来的巨大成本是否真的可以创造等值的收益。

强实时可以更接近一个“未来”的状态，即此时此刻。这远比算法对未来的预测更有价值，因为把握眼前比构造多变的未来对一个企业更有价值。甚至说当数据过程快过神经元的传递，那么从获取到你脑电波的那一刻起，数据处理的驱动结果远比神经元传递至驱动四肢要快。

是不是与兵马未动，粮草先行的场景相似？当然这是以数据计算能力的角度来看待这个问题。跳出来以我个人的观点来说，整体数据能力强大到一定阶段后，会从主观改变个人的意愿，即通过引导你的大脑从而来控制或决定个人行为且不会让你感知，所以可以理解为从主观改变个人意愿。从人的角度来说，你并不知道或者直观意愿去凭空决定下一步要做什么，因为大脑是逻辑处理器，当然这又涉及到心理学，这些观点就不在此赘述了，等往后另起一个篇幅来说数据应用未来前景和假想。

3. 数据资产能力

都在说“大”数据，那么数据量级越大越好吗？并不是，从某种角度来说大量无价值或者未探索出价值的数据是个负担，巨大的资源损耗还不敢轻易抹灭。

随着数据量级的急剧放大，带来的是数据孤岛：数据的不可知、不可联、不可控、不可取；那么散乱的数据只有转换成资产才可以更好的发挥价值。

什么是数据资产，我觉得可以广泛的定义为可直接使用的交付数据即可划为资产，当然可直接使用的数据有很多种形式，比如meta元数据、特征、指标、标签和ETL的结构化或非结构化数据等。

目前也在拓展Data Lake的使用场景，直接实时的使用和处理Data Lake数据的趋势是一种扩大企业自身数据资产范围和资产使用率的方式。这有利于突破数仓模型对数据的框架限定，改变数据使用方式会有更大的想象空间。

数据资产的价值可以分两部分来考虑：一部分是数据资产直接变现的价值；另一部分是通过数据资产作为资源加工后提供数据服务的业务价值。

第一部分比较好理解，就是数据集的输出变现值，如标签、样本和训练集等的直接输出按数据量来评估价值；第二部分价值比如通过自身数据训练优化后的算法应用而提升业务收益的价值或依于数据的广告投放的营销变现等，甚至说沉淀出的数据资产管理能力作为知识的无形资产对外服务的价值。这些间接的数据应用和服务的变现方式也是数据资产价值的体现并可以精细的量化。

4. 数据算法能力

其实无论是传输能力还是计算能力，都是相对偏数据底层的实现，而离业务场景最近的就是算法能力所提供的算法服务，这是最直接应用于业务场景且更容易被用户感知的数据能力，因为对于传输和计算来说用户感知的是速度快慢，从用户视角快是应该的，因此用户并不知道何时何地计算或传输。

而算法对业务应用场景是一个从0到1，从无到有的过程。并且算法是基于数据传输、计算和资产能力之上泛化出的应用能力，或者换句话说是三个基础能力的封装进化。

而算法能力是把多元的数据集或者说获取到尽可能多的数据转化为一个决策判断结果来应用于业务场景。算法能力的强弱反映了三个数据能力是否高效配合，是否存在木桶效应，更甚者木桶也没有。当然单纯的算法也可以单独作为无形资产的知识沉淀来提供服务。

对于数据能力架构中的四大能力，传输、计算和资产是基础能力，而算法是高级的泛化能力。而能力的输出和应用才能体现数据价值，数据能力的最大化输出考验着整个数据产品架构体系的通用性和灵活性。因为需要面对的是各种业务演化出的多种多样场景，对数据能力的需求参差不齐：可能是片面化的，也可能是多种能力匹配协调的。这对产品的通用性就是一个巨大的挑战，想更好的应对这个问题，可能就需要整个数据平台的产品矩阵来支撑和赋能。

二、数据能力对应数据价值的呈现

从数据应用的角度，每个能力都可以独立开放也可以组合叠加。如果把能力具象出来就会衍生到产品形态的问题，产品形态是对能力适配后发挥作用的交付物。说到产品形态我们可以想象一下应用场景。

首先最基础的应用场景就是数据直接调用，数据资产的使用基本会基于特征、指标、标签或者知识等交付形态。而对于使用方来说这些数据会作为半成品原料或依据来进行二次加工应用于业务场景中，如数据分析、数据挖掘、算法的训练与验证、知识图谱、个性推荐、精准投放（触达）和风控等。数据资产可以统归为在数据市场中通过构建的一些OpenAPI进行赋能。

而对于一个工厂来说，仅仅进行原材料的加工（ETL）输出即除了自身原材料（数据资产）的壁垒外核心竞争力很小，需要包装一些上层的基础服务来提升竞争力，那么数据计算的能力融合进来对原材料进行二次加工（聚合统计）。

计算的聚合统计能力加入进来后可以满足大部分的数据分析场景的支持，就不单单是原材料毫无技术含量的输出，并可以以半成品的形态规避数据敏感。因为对于统计值来说，这是一个分析结果或结论，并不会涉及到自身敏感数据的输出，因此你的核心资产不会泄露，而输出的仅仅是资产的附加值。换句话说知识产权专利依然在你手中，通过控制专利泛化出的能力进行投资回报。

融入计算能力后的一些分析场景如：人群的画像分析、多维度的交叉分析、业务的策略分析和监控分析等多种场景。

随着时代的发展和业务场景的增多，这时工厂继续需要产业变革，要深耕服务业逐步抛弃制造业形态，全面提升更高级的数据服务。这时算法能力的加入来更好的完善服务矩阵。

算法通过封装了传输、计算和资产能力而进行统一的更好理解的业务场景目标预测和识别等。这样对于企业来说可以更容易接受和低成本使用数据服务而不需要再涉及到数据加工链路中，而仅仅需要一个目标结果，通过算法的决策作为参考来指导业务方向。像算法对一些业务场景的预测分析，甚至说一些人工智能场景的识别或学习思考，都可以通过算法赋能来实现。对于企业来说就是从无到有的突破，企业发展进程甚至可能提升好几年。

而贯穿以上能力应用场景都是对数据传输能力的考验。

“数据”的重要性可以有以下几点。

1、数据能够为企业高层提供决策支持。将企业海量数据进行统计分析挖掘后，能够让高层制定合理的措施。

2、数据能整合企业庞杂业务。每个企事业都有很复杂的业务系统，借助数据及对应平台可以将其庞杂的业务进行整合。

3、数据能反应事件本质与趋势。真实数据能够更好地去了解事件的本质问题，预判事态发展。

4、数据能够让人们更加了解自己。未来你可能真的不是最了解你自己的人？但是可以使用个人的数据进行画像，充分了解个人。

5、数据能反应历史，展望未来。通过历史数据查询过往，也能够使用以往的数据进行感知未来。

总之，在大数据和5G技术逐渐成为趋势的时代背景下，“ 数据 ”是越来越常见，如社交网络、消费信息、旅游记录……企业层面的销售数据、运营数据、产品数据、活动数据……

离线实时一体化数仓与湖仓一体—云原生大数据平台的持续演进

简介

阿里云智能研究员林伟：阿里巴巴从湖到仓的演进给我们带来了湖仓一体的思考，使得湖的灵活性、数据种类丰富与仓的可成长性和企业级管理得到有机融合，这是阿里巴巴最佳实践的宝贵资产，是大数据的新一代架构。

林伟，阿里云智能研究员、阿里云智能通用计算平台MaxCompute、机器学习PAI平台技术负责人

本篇内容将从三个部分为读者讲述离线实时一体化数仓与湖仓一体—云原生大数据平台的持续演进。通过从数据湖到数仓的历史，反思为什么要做湖仓一体，以及湖仓一体在今天这个阶段为什么开始做离线和实时湖仓一体化的数仓。

湖仓一体

离线在线数仓一体化

智能数仓

希望这次的分享让大家进一步理解我们为什么做湖仓一体。

一、湖仓一体

(1) 阿里巴巴从数据湖到数仓历程

2007年的宁波战略会议确定建立一个开发、协同、繁荣的电子商务生态系统，其中生态系统的核心是数据。但这个时候各个业务部门都在垂直式发展数据能力，用数据支撑商业的决策服务。这些数据中台支撑了业务部门的发展。但我们发展到一个阶段的时候，希望进一步挖掘出各个业务部门数据之间的关联性，从而利用这些高阶数据分析挖掘更高商业价值，我们遇到了很多的困难，因为数据来自不同的部门，不同的人会提供你不同的数据集，没有清晰数据质量监控，你也不知道这些数据是不是完整的，你就需要花费很多时间不停的去校准数据。这个过程耗时太长且多数情况会做了非常多的无用功，这样其实整体下降了公司的效率。

所以到了2012年，我们决定将所有的业务部门的数据都关联起来，决心做『One>

(3) 数据仓库和数据湖系统的增长曲线

上图的增长曲线，基本上也是阿里发展的曲线，最开始也是数据湖状态，各个业务部门独立发展，起步快、灵活性强。但当达到特定规模时，数据无人管理、每个业务部门的数据的逻辑语言不一致，很难对齐。所以当时花了50%、80%的无效时间在校验数据，随着规模的不断扩大，这样的损耗越来越大，迫使我们推动公司统一数据仓库的建立。

(4) 湖仓一体

正是因为我们经历过堪比“登月”的痛苦，所以我们不希望MaxCompute未来的企业客户也经历这么痛苦过程，所以我们构建湖仓一体的开发平台。当公司规模较小的时候，可以运用数据湖能力更快定制自己的分析。公司成长到一定的阶段，需要更好的数据管理和治理方式的时候，湖仓一体平台可以无缝把数据以及数据分析进行有效的升级管理，使得公司对于数据管理更加规范。这就是湖仓一体整体设计背后的核心思想。

我们把湖的系统和仓的系统有机结合在一起，一开始是没有元数据，你想要建立数仓的时候，我们有可以在湖上面来抽取这个元数据，这个元数据是和仓的元数据放在一个一体化的元数据的分析平台上面。在这个元数据之上可以建立很多数据仓库的数据管理平台。

同时，在数据仓库湖仓一体的平台上面，我们有效支持很多分析引擎，有任务型的计算引擎，包括像MaxCompute是批处理、Flink是流式处理、机器学习等，还有开源的组件可以分析我们的数据；也有服务性质数据引擎可以支持交互式查询服务，能够去更加实时性很好的展示我们的数据，从而使得用户可以在这个服务性引擎上去构建自己数据服务应用。

在引擎之上我们构建丰富数据管理工具从而能够让业务部门能够进行高效整体的数据治理。而这都得益于我们把湖和仓的数据打通，这也是整体湖仓一体设计的核心。

二、离线在线数仓一体化

现今社会越来越便捷，客户需要更快的做出商业决策。在双十一GMV实时大屏、春晚直播实时大屏等数据分析，以及机器学习从离线模型走向在线模型的趋势中我们都可以看到。这些需求推动了实时数仓的发展。

其实实时数仓和离线数仓有着相似的发展过程。当时实时系统发展的早期，我们首先考虑的是引擎，因为只有先有引擎了你才可以进行实时数据分析，所以阿里巴巴把研发精力放在Flink这样的流计算引擎上。但是只有流计算引擎，类似数据湖的阶段，我们缺乏将分析出来的结果数据进行管理，所以到了第二阶段，我们利用我们离线数仓产品来管理这些分析结果，从而把分析结果纳管到我们整体数据仓库和数据管理中。但是把实时分析之后的结果放在离线数仓里面，显然这样是对于实时商业决策是不够的及时。所以我们现在发展第三个阶段：实时数仓。

我们会把流式引擎的分析结果结果实时的写到实时数仓Hologres里面，从而能够让分析的结果更实时的进行BI的分析，从而有效的支持客户实时商业决策。

这就是离线和在线数仓一体化的设计。

总结一下，原有的分析在离线和在线的数仓一体化之前是一个很纷繁的过程，有离线、有在线的、有很多不同的引擎，现在把它总结到或者简化成上图的架构。我们会用实时的引擎做预处理，做完预处理后，我们把这些数据写入到MaxCompute离线的数仓，也可以同时写入到Hologres实时数仓中里面，从而可以做更加实时的服务化的BI分析。而MaxCompute离线的数仓存储的成本更低，吞吐的性能更好，可以做大量的离线数据分析，这就是离在线数仓一体化的设计。

有了一体化的设计，就可以给客户带来一个非常平衡的系统。根据数据的场景或者是业务的场景，你可以用批处理。并且通过数据的压缩、冷存，数据根据热和冷的方式做不同梯度的存储，就可以得到更低成本的离线分析。

当对于数据的实时性的价值更加重视，可以用流计算的引擎去做。同时又希望有很快的交互式，希望快速通过各种方式的、各种维度、角度去观察已生成好的报表。这时候可以利用交互式引擎，在高度提纯过数据后的进行各个维度的洞察。

希望用湖仓一体化平台就能够达到一个好的平衡，根据实际的业务体量、要求、规模成本达到更好点。

总的来说，希望湖仓一体系统上，不管是离线还是在线。通过不同的分析引擎，支持各类分析，同时通过在线服务型引擎能够实时进行BI，能够达到低成本、自定义能力，以及实时和在线服务的各种平衡。让客户能够根据实际业务场景选择。

三、智能数仓

有了统一的数仓平台，我们就可以在此之上建立强大的数据治理或者是分析平台，这个就是我们的DataWorks。在这个平台上面有很多数据建模工具，提供数据的质量和标准、提供血缘的分析、提供编程助理等等。正是因为湖仓一体在线和离线的一体化的底座能力，才赋予了我们有这样的可能性去做到大数据开发和治理平台更加智能化的方式。从而将更多经过验证过有效数据治理经验分享到我们企业客户上。

相关标签：驾驭大数据浪潮、数据参量化在数据仓库和数据湖中的应用、驾驭大数据包含哪些难题、

上一篇：AI和机器学习中的数据参量化增强模型性能和

下一篇：优化数据分析数据参量化及其在决策中的关键

内容声明：

1、本站收录的内容来源于大数据收集，版权归原网站所有！
2、本站收录的内容若侵害到您的利益，请联系我们进行删除处理！
3、本站不接受违法信息，如您发现违法内容，请联系我们进行举报处理！
4、本文地址：http://www.jujiwang.com/article/537092e7e60b0228588e.html，复制请保留版权链接！

温馨小提示：在您的网站做上本站友情链接,访问一次即可自动收录并自动排在本站第一位！