DAMA-DMBOK(2ndEdition)相比第一版(版)增添了不少内容。本次更新介绍书中第十四章有关大数据和数据科学的内容。
No.1
概述
自年初以来,大数据和数据科学就流行开来。不幸的是,这些概念及其含义容易被误解,或者对含义上的共识极为有限,甚至“大”的含义也是相对的。大数据和数据科学都与重大的技术变革相关,这些技术变革使人们能够生成、存储和分析越来越多的数据。更重要的是,人们可以使用这些数据来预测和影响行为,获得对一系列重要主题的洞察,例如医疗保健、自然资源管理和经济发展
大数据不仅指数据量,还指其种类(结构化和非结构化,文档,文件,音频,视频和流数据等)及其生成速度。从中挖掘和开发预测模型、机器学习模型、决策模型,将结果供数据科学家进行分析
数据科学已经存在了很长时间。它曾经被称为“应用统计”。但随着大数据及其技术的出现,探索数据模式的能力在二十一世纪迅速发展。传统商务智能分析结构化数据用以描述过去的趋势。在某些情况下BI模式用于预测未来的行为,但不具有很高的置信度。对海量数据集的深入分析一直受到技术的限制。分析是依靠抽样或其他抽象手段得到近似模式。随着收集和分析大型数据集的能力的增强,数据科学家集成数学、统计、计算机科学、信号处理、概率建模、模式识别、机器学习、不确定性建模和数据可视化等方法,通过大数据获取洞察力或预测行为。简而言之,数据科学找到了从数据中获取价值的新方法
随着大数据与数据仓库和商业智能环境不断融合,数据科学技术可用于提供组织的前瞻性见解。基于不同类型数据源、实时、面向模型与预测能力,组织可以更好地了解其前进的方向
但要利用大数据,就需要改变数据管理的方式。过去绝大多数数据仓库是基于关系模型。而大数据通常不以关系模型进行组织。大多数数据仓库取决于ETL的概念。像数据湖之类的大数据解决方案取决于ELT的概念。重要的是,处理数据量和处理速度带来了挑战,需要对数据管理的关键方面(例如集成,元数据管理和数据质量评估)采用不同的方法
业务驱动力
最大业务驱动力组织希望从各种流程生成的数据集中发现商业机会并采取行动。大数据可以通过提供更多和更大的数据集进行探索从而激发创新:
通过定义预测模型,预测客户的需求并支持产品和服务的个性化表示
数据科学可以改进操作
机器学习算法可以自动完成复杂、耗时的活动,从而提高组织效率,降低成本,降低风险
原则
大数据的成功取决于大数据管理。由于数据源和格式的巨大差异,在许多方面大数据管理将比关系数据管理需要更多的知识。与大数据管理有关的原则尚未完全形成,但是一个很明确的原则:组织应该仔细管理与大数据源有关的元数据,以便掌握数据文件及其来源、价值的准确清单
数据科学
数据科学将数据挖掘、统计分析和机器学习与数据集成和数据建模功能相结合,用以构建探索数据内容模式的预测模型。开发预测模型有时也称为数据科学,因为数据分析师或数据科学家使用科学方法来开发和评估模型
数据科学家提出了有关行为的假设,并在采取特定行动之前从数据中观察到这种行为。例如通常先购买一种类型的物品,然后再购买另一种类型的物品(购买房屋后通常再购买家具)。然后数据科学家分析大量历史数据,以确定该假设在过去的真实频率有多高,并通过统计学方式验证该模型的准确性。如果一个假设在充分的频率下是有效的,并且所预测的行为是有用的,则该模型可能会成为智能运营流程以预测未来的行为
开发数据科学解决方案涉及将数据源迭代地纳入到洞察模型开发中。数据科学依赖于:
丰富的数据来源
信息比对和分析
信息交付:执行数据模型和数学算法,生成可视化效果和其他输出,深入洞察行为
结果和数据见解的呈现
数据科学流程
数据科学流程遵循通过观察提炼知识的科学方法、形成和测试假设、观察结果、并形成能够解释结果的一般理论,包括:
定义大数据战略和业务需求
选择数据源
从数据源中获取数据
开发数据科学的假设和方法
集成、调整数据以进行分析
使用模型探索数据
部署和监控
大数据
早期“大数据”以“三个V”为特征:体积,速度,多样性。随着越来越多的组织开始利用大数据,V的列表也在扩大:
Volume(数据容量)
Velocity(速度)
Variety/Variability(多样性)
Viscosity(集成度)
Volatility(易变性)
Veracity(价值)
大数据异常大(大于TB,通常在PB和Exabyte范围内)。在数据仓储和分析解决方案中,大量数据的加载,建模,清理和分析受到了挑战。这些挑战通常采用大规模并行处理以及分布式数据解决方案。然而大数据具有更广泛的含义。数据集的大小要求改变存储和访问数据的整体方式,以及如何理解、管理数据(有关数据的许多思考方式都基于关系数据库结构)
大数据架构组件
大数据和数据科学环境的选择,安装和配置需要专业知识。必须根据现有的数据探索工具和新的采集来合理地开发端到端架构
DW/BI与大数据处理的最大区别在于:在传统的数据仓库中,数据导入仓库即进行集成(ETL);而在大数据环境中,数据在集成之前被摄取和加载(ELT)。在某些情况下,传统意义上的数据可能根本无法集成。它通常通过特定的用途进行集成(例如为构建预测模型驱动特定数据集的集成),而不是为使用而集成
ETL和ELT之间的差异对数据的管理方式具有重要意义。例如集成过程不一定依赖或产生企业数据模型。风险是如果以临时方式执行摄入和使用过程,可能会丢失大量有关数据的知识。如果要加强对这些过程的理解和利用,则需要收集和管理与这些过程相关的元数据
大数据的数据来源
由于人类活动大量的通过电子方式执行,随着我们在世界各地移动,彼此交互以及进行业务交易,每天都会积累大量数据。大数据是通过电子邮件、社交媒体、在线订单甚至在线视频游戏产生的。数据不仅通过电话和销售设备生成,还通过监视系统、运输系统中的传感器、医疗监视系统、工业和公共事业监视系统、卫星以及军事设备生成。与Internet直接交互的设备会生成很大一部分的大数据。设备与Internet之间的连接被称为物联网(IoT)
数据湖
数据湖是一个可以提取,存储,评估和分析大量各种类型和结构数据的环境。数据湖可以有多种用途。例如:
数据科学家挖掘和分析数据的环境
原始数据的中央存储区域(很少转换)
为详细的历史数据仓库提供备用存储
记录的在线归档
使用自动模式识别来摄取流数据的环境
数据湖可以实现数据处理工具的复杂配置,包括Hadoop或其他数据存储系统、集群服务、数据转换和数据集成。这些处理程序促进了跨基础设施、分析软件的使用,并将配置组合在一起
数据湖的风险在于它可能变成数据沼泽,即混乱、不干净和不一致状态。要建立数据湖中内容的清单,在摄取数据时管理元数据至关重要。为了了解数据湖中的数据如何关联或连接,数据架构师或数据工程师经常使用唯一键或其他技术(语义模型,数据模型等),以便使数据科学家和其他可视化开发人员掌握如何使用存储在数据湖中的信息
基于服务的架构
基于服务的体系结构(SBA,小编理解为现在的lambda架构,流批一体)逐渐成为一种提供即时数据,以及使用相同来源更新完整,准确的历史数据集的方法。SBA体系结构类似于DW体系结构,后者直接将数据发送到ODS后可立即访问,同时数据将发送到DW以进行历史积累。SBA体系结构具有三个主要组件:
批处理层:数据湖作为批处理层,包含最近和历史数据
速度层:只包含实时数据
服务层:提供一个接口来连接批处理层和速度层的数据
这种架构下所有分析计算都是对批处理层和速度层中的数据执行的,这很可能需要在两个独立的系统中实现。组织通过在服务层中定义的合并视图,并在完整性、延迟和复杂性之间进行权衡来处理同步问题。需要进行成本/收益评估,以确定降低延迟或改进数据完整性是否值得付出相应的成本和复杂性
批处理层通常被称为随时间变化的结构组件(每个事务都是一个插入),而在速度层中,所有事务都是更新(或仅在需要时才插入)。通过这种方式,该架构可防止同步问题,同时创建当前状态和历史记录层。此架构通常通过服务或数据服务层提供其数据,并利用元数据对数据进行抽象。该服务层确定要从何处“提供数据”并适当地提供所请求数据
机器学习
机器学习围绕学习算法的构建和研究。可以将其视为无监督学习方法与深深扎根于数学理论的有监督学习方法的结合。通过对机器编程快速学习查询并适应不断变化的数据集,大数据领域出现了一个全新的领域—机器学习。流程运行并存储结果,然后在后续运行中使用这些结果迭代地影响流程并优化结果
机器学习的算法分为三种类型:
监督学习:基于一般规则;例如,将垃圾邮件与非垃圾邮件分开
无监督学习:识别隐藏模式
强化学习:达到一个目标(例如,在国际象棋中击败对手)
统计建模和机器学习已经被用于自动化研究和项目开发,通过对大量数据执行试验和错误传导,重复试验,收集、分析和纠正错误的结果。这种方法可以大大减少回答问题的时间,基于成本效益的可重复过程,指导组织计划
虽然机器学习以新的方式利用数据,但它也有伦理方面的含义,特别是在透明原则方面。有证据表明,深度学习神经网络(DLNN)是有效的。然而却并不总清楚它如何学习。驱动这些过程的算法不断复杂,它们也变得更加不透明,就像“黑匣子”一样。由于变量不断增加,并且这些变量本身也更加抽象,算法将考验人类理解机器的能力极限。随着机器学习的发展和更广泛的使用,对透明性(掌握决策是如何做出的)的需求可能会增加
情绪分析
媒体监控和文本分析是用于从大型非结构化或半结构化数据(如交易数据、社交媒体、博客和web新闻站点)自动化检索信息的方法。这用来了解人们对品牌、产品、服务或其他类型话题的看法和感受。使用自然语言处理(NLP)或通过分析短语、句子,语义分析可以检测情绪,并揭示情绪的变化以预测可能的场景
数据和文本挖掘
数据挖掘是一种利用各种算法揭示数据模式的特殊分析方法。它最初是人工智能领域中机器学习的一个分支。该理论是统计分析的一个子集,被称为无监督学习,算法应用于一个不掌握期望结果的数据集。标准的查询和报告工具询问特定的问题,而数据挖掘工具通过揭示模式来帮助发现未知的关系。数据挖掘是探索阶段的一项关键活动,因为它有助于快速识别所研究的数据元素,识别以前未知、不清楚或未分类的新关系,并为数据元素的分类提供结构
文本挖掘使用文本分析和数据挖掘技术分析文档,自动将内容分类为本体。因此无需重组或重新格式化就可以分析电子文本媒体。本体可以链接到搜索引擎,允许对这些文档进行WEB查询
数据和文本挖掘应用大量技术,包括:
分析
数据简化
关联
聚类
自组织映射
预测分析
预测分析是监督学习的子领域,试图通过评估概率来建模数据元素并预测未来的结果。预测分析深深植根于数学特别是统计学,与非监督学习共享许多组件,通过规定差异来衡量预期的预测结果
预测分析是基于变量概率模型的发展,包括与概率事件(购买、价格变化等)相关的历史数据。当接收到其他信息时,模型会触发组织的反应。触发因素可能是一个事件,例如客户将产品添加到在线购物篮中,也可能是数据流中的数据,例如新闻提要或传感器数据,或者是服务请求量的增加。触发因素还可能是外部事件。有关一家公司的新闻报道是股价变化的重要预测因素。预测股价走势应包括监测新闻,并确定有关公司的消息对股价可能是好还是坏
通常触发因素是大量实时数据的累积,例如极高数量的交易、服务请求或环境易变性。监视数据事件流包括在已填充的模型上增量地构建,直到达到模型中定义的阈值为止
预测模型在新旧预测之间的时间通常很少(几秒或不到一秒)。投资低延迟的技术解决方案,例如内存数据库、高速网络,甚至物理上接近数据源,都可以优化组织对预测的反应能力
预测模型最简单的形式是预报。基于回归分析的趋势或预测技术有很多,并得益于平滑处理。平滑数据最简单的方法是通过移动平均线,甚至加权移动平均线。更高级的技术例如指数移动平均,它引入了一个平滑因子
规范性分析
规范性分析将预测性分析进一步定义为将影响结果的行动,而不仅仅是预测已经发生的行动结果。规范性分析预测将要发生的事情,什么时候会发生,以及为什么会发生。因为规范性分析可以显示各种决策的影响,它可以建议如何利用机会或避免风险。规范性分析可以不断地吸收新的数据来重新预测和规定。这个过程可以提高预测的准确性
非结构化数据分析
非结构化数据分析结合文本挖掘、关联、聚类和其他非监督学习技术来整理大型数据集。监督学习技术也可以在整理过程中提供指导、监督,在必要时利用人工干预来解决模糊性
扫描和标记是向非结构化数据添加“挂钩”的一种方式,允许过滤和链接到相关的结构化数据。然而了解根据什么条件生成什么标记是困难的。这是一个迭代的过程,从标签条件识别,标签分配,然后在分析中使用这些标签来验证标签条件,并分析被标记的数据,这将可能导致标签条件改变,或产生更多的标签
操作型分析
操作型分析(也称为操作型BI或流分析)的概念是将实时分析集成到操作中产生的。操作型分析包括情感分析、地理编码等活动,以及应用用于数据集的其它技术,例如营销活动分析、产品采用、资产优化和风险管理等
操作型分析包括跟踪和集成实时信息流,根据行为的预测模型得出结论,并触发自动响应和警报。为成功的分析设计模型、触发器和响应需要对数据本身进行更多的分析。操作型分析解决方案包括为行为模型的预填充准备历史数据。例如在一个零售产品模型中,填充一个购物篮分析,该分析标识经常一起购买的产品。在预测金融市场行为时,经常使用历史价格信息和历史价格变化率。预填充计算通常提前执行,以便能够及时响应触发事件
一旦确定预测模型既有用又经济有效,就会实现历史数据和当前数据(包括实时和流数据、结构化和非结构化数据)集成的解决方案,以填充预测模型并根据预测触发操作。解决方案必须确保使用模型规则的实时数据流得到正确处理,并正确生成对数据中有意义的事件的自动响应
数据可视化
可视化是使用图片或图形表示来解释概念、主张和事实的过程。数据可视化通过以可视摘要(如图表或图形)的形式显示数据,从而促进对底层数据的理解。数据可视化压缩和封装特征数据,使它们更容易被看到,这样做可以发现机会,识别风险,或者突出信息
数据可视化可以以静态格式(如已发布的报告)或更具交互性的在线格式交付;还有一些支持终端用户交互,其中钻孔或过滤功能有助于在可视化中分析数据。另一些则允许用户根据需要通过创新的显示(如数据地图和随时间推移移动的数据景观)来更改可视化
长期以来,可视化一直是数据分析的关键。传统的BI工具包括可视化选项,如表格、饼图、折线图、区域图、条形图、直方图。为了满足日益增长的数据理解需求,可视化工具的数量增加了,技术也得到了改进
随着数据分析的成熟,以新的可视化数据方式将提供战略优势。看到数据中的新模式可以带来新的业务机会。数据可视化的不断发展,组织将不得不发展他们的业务智能团队,以在日益增长的数据驱动的世界中竞争。业务分析部门将寻找具有可视化技能的数据专家,包括数据科学家、数据艺术家和数据视觉专家,以及传统的信息架构师和数据建模师,特别是考虑到与误导可视化相关的风险
▼往期精彩回顾▼DAMA数据管理知识体系指南学习新的(22)-数据处理道德DataVault2.0学习心得(38)-相关知识点总结DataVault2.0学习心得(37)-维度信息市场(下)温馨提示
如果你喜欢本文,请分享到朋友圈,想要获得更多信息,请
转载请注明:http://www.baoshijiec.com/yljg/5573.html