大数据
大数据是由组织收集的结构化、半结构化和非结构化数据的组合,可以挖掘信息并用于机器学习项目,预测建模以及其他高级分析应用程序。
处理和存储大数据的系统已经成为一个共同的组成部分数据管理组织中的体系结构,结合支持的工具大数据分析用途。大数据通常有三个V的特点:
- 大体积许多环境中的数据;
- 宽阔的各种大数据系统中经常存储的数据类型;和
- 的速度许多数据都是在这里产生、收集和处理的。
2001年,当时在咨询公司Meta Group Inc.担任分析师的道格•兰尼(Doug Laney)首次发现了这些特征;在2005年收购Meta Group之后,Gartner进一步普及了这一技术。最近,其他几个V的被添加到大数据的不同描述中,包括真实性,价值和可变性.
尽管大数据并不等同于任何具体的数据量,大数据部署通常涉及tb, pb,甚至exabytes的数据创建和收集的时间。
大数据的重要性
公司在他们的系统中使用大数据改善运营,提供更好的客户服务,创建个性化的营销活动和采取其他行动,最终可以增加收入和利润。有效使用它的企业比那些不使用它的企业拥有潜在的竞争优势,因为他们能够做出更快、更明智的业务决策。
例如,大数据提供了对客户有价值的洞察,公司可以利用这些洞察来改进营销、广告和促销,以提高客户参与度和转化率。通过分析历史数据和实时数据,可以评估消费者或企业买家不断变化的偏好,从而使企业对客户的需求和需求做出更积极的响应。
医学研究人员也使用大数据来识别疾病迹象和风险因素,医生也使用大数据来帮助诊断病人的疾病和医疗状况。此外,来自电子健康记录、社交媒体网站、网络和其他来源的数据组合为医疗保健组织和政府机构提供了关于传染病威胁或爆发的最新信息。
以下是一些企业如何使用大数据的例子:
- 在能源行业,大数据帮助油气公司确定潜在的钻井位置并监控管道运行;同样,公用事业公司也用它来追踪电网。
- 金融服务公司使用大数据系统进行风险管理和实时分析的市场数据。
- 制造商和运输公司依靠大数据来管理他们的供应链和优化运输路线。
- 其他政府用途包括应急响应、预防犯罪和智慧城市倡议。
大数据的例子
大数据来源多种多样,比如交易处理系统、客户数据库、文件、电子邮件、医疗记录、互联网点击记录、移动应用程序和社交网络。它还包括机器生成的数据,如网络和服务器日志文件,以及来自制造机器、工业设备和设备上的传感器的数据物联网设备。
除了来自内部系统的数据,大数据环境通常还包括消费者、金融市场、天气和交通状况、地理信息、科学研究等外部数据。图像、视频和音频文件也是大数据的形式,许多大数据应用都涉及到连续处理和收集的流数据。
分解大数据的V型
容量是大数据最常被引用的特征。大数据环境并不需要包含大量的数据,但由于收集和存储在其中的数据的性质,大多数情况下都需要。点击流、系统日志和流处理系统是典型的持续产生大量数据的来源。
大数据还包括多种数据类型,包括以下几种:
- 结构化数据,如交易和财务记录;
- 非结构化数据,如文本、文档和多媒体文件;和
- 半结构化数据,如web服务器日志和来自传感器的流数据。
在大数据系统中,可能需要同时存储和管理各种数据类型。此外,大数据应用程序通常包括多个数据集,这些数据集可能没有预先集成。例如,一个大数据分析项目可能试图通过关联过去的销售、退货、在线评论和客户服务电话的数据来预测产品的销售。
速度是指生成数据并必须进行处理和分析的速度。在许多情况下,大数据集是在真实或接近实时的基础上更新的,而不是许多传统的每日、每周或每月更新数据仓库.管理数据速度也很重要,因为大数据分析进一步扩展到机器学习和人工智能(人工智能),其中分析过程自动发现数据中的模式并使用它们来生成见解。
更多的大数据特性
除了最初的三个V之外,以下是一些现在经常与大数据相关的其他V的细节:
- 准确性指的是数据集的准确性和可信度。从各种来源收集的原始数据可能导致数据质量这些问题可能很难确定。如果它们没有被修复数据清理流程、坏数据导致的分析错误会破坏业务分析计划的价值。数据管理和分析团队还需要确保他们有足够的准确数据,以产生有效的结果。
- 一些数据科学家和顾问还向大数据的特征列表添加价值。并非所有收集的数据都具有真正的商业价值或福利。因此,组织需要确认数据与大数据分析项目中使用之前的相关业务问题。
- 可变性通常也适用于大数据集,这些数据集可能有多个含义,或者在不同的数据源中有不同的格式——这些因素会进一步复杂化大数据管理和分析。
一些人将更多的V归因于大数据;已经创建了7到10个不同的列表。
大数据是如何存储和处理的
大数据通常存储在一个数据湖.而数据仓库通常是建立在关系数据库并且只包含结构化数据,数据湖可以支持各种数据类型,通常是基于Hadoop集群、云对象存储服务、NoSQL数据库或其他大数据平台。
许多大数据环境在分布式架构中组合多个系统;例如,中心数据湖可能与其他平台集成,包括关系数据库或数据仓库。大数据系统中的数据可能会保留其原始形式,然后根据特定分析用途的需要进行过滤和组织。在其他情况下,它是预处理使用数据挖掘工具和数据准备软件,以便为定期运行的应用程序做好准备。
大数据处理对底层计算基础设施的需求很大。所需的计算功率通常由聚类系统提供,该系统提供了使用Hadoop和火花处理引擎等技术的数百或数千种商品服务器的处理工作负载。
以一种经济有效的方式获得这种处理能力是一个挑战。因此,云是大数据系统的热门位置。组织可以部署自己的基于云的系统或使用托管系统big-data-as-a-service来自云提供商的产品。云用户可以扩展到足够长的服务器数量以完成大数据分析项目。该业务只需支付它使用的存储和计算时间,并且云实例可以关闭,直到它们再次需要。
大数据分析是如何工作的
为了从大数据分析应用程序中获得有效和相关的结果,数据科学家和其他数据分析师必须对可用数据有详细的了解,并意识到他们在其中寻找什么。这使得数据准备(包括分析、清理、验证和转换数据集)成为分析过程中至关重要的第一步。
一旦数据被收集并准备好进行分析,各种各样的数据科学和高级分析学科可以应用于使用提供的工具运行不同的应用程序大数据分析功能和能力.这些学科包括机器学习及其深度学习分支、预测建模、数据挖掘、统计分析、流分析、文本挖掘等等。
以客户数据为例,可以对大数据集进行分析的不同分支包括:
- 比较分析。它检查客户行为指标和实时客户参与,以便将公司的产品、服务和品牌与其竞争对手进行比较。
- 社交媒体听.它分析人们在社交媒体上对企业或产品的看法,有助于识别潜在问题和营销活动的目标受众。
- 市场营销分析.这提供了可用于改进产品、服务和业务计划的营销活动和促销提议的信息。
- 情绪分析。所有收集到的客户数据都可以通过分析来揭示他们对公司或品牌的感觉、客户满意度、潜在问题以及如何改善客户服务。
大数据管理技术
Hadoop是2006年发布的一个开源分布式处理框架,最初是大多数大数据架构的中心。Spark和其他加工引擎的发展推动了这一进程MapReduce,发动机内置于Hadoop,更多到侧面。结果是一个大数据技术生态系统可以用于不同的应用程序,但通常被部署在一起。
IT供应商提供的大数据平台和管理服务将这些技术结合在一个单一的包中,主要用于云计算。目前,包括这些产品,按字母顺序排列:
- Amazon EMR(原Elastic MapReduce)
- Cloudera数据平台
- 谷歌云Dataproc
- HPE Ezmeral Data Fabric(原MapR数据平台)
- 微软Azure HDInsight
对于那些想要自己部署大数据系统的组织来说,无论是在企业内部还是在云上,他们都可以使用这些技术Hadoop和火花包括以下类别的工具:
- 存储库,如Hadoop分布式文件系统(HDFS)包括亚马逊简单存储服务的云对象存储服务(S3)、谷歌云存储和Azure Blob存储;
- 集群管理框架,如Kubernetes, Mesos和纱, Hadoop的内置资源管理器和作业调度器,它代表Yet Another resource Negotiator,但通常仅以首字母缩写而为人所知;
- 流处理引擎,如Flink, Hudi, Kafka, Samza, Storm和Spark内置的Spark Streaming和Structured Streaming模块;
- NoSQL数据库,包括Cassandra、Couchbase、CouchDB、HBase、MarkLogic Data Hub、MongoDB、Neo4j、Redis等多种技术;
- 数据湖、数据仓库平台,其中亚马逊Redshift、Delta lake、谷歌BigQuery、麒麟、雪花;和
- SQL查询引擎,如Drill, Hive, Impala, Presto和Trino。
大数据的挑战
在处理能力问题上,设计大数据架构对用户来说是一个常见的挑战。大数据系统必须根据组织的特殊需求进行定制,这是一项DIY事业,需要IT和数据管理团队组装一套定制的技术和工具。与专注于关系软件的数据库管理员和开发人员通常拥有的技能相比,部署和管理大数据系统还需要新的技能。
这两个问题都可以通过使用托管云服务来缓解,但IT经理需要密切关注云的使用情况,以确保成本不会失控。此外,将本地数据集和处理工作负载迁移到云通常是一个复杂的过程。
其他管理大数据系统的挑战包括让数据科学家和分析师可以访问数据,特别是在混合了不同平台和数据存储的分布式环境中。为了帮助分析师找到相关数据,数据管理和分析团队正日益增多建立数据目录包含元数据管理和数据沿袭功能。的过程整合大数据集通常也很复杂,特别是当数据变化和速度是因素时。
有效的大数据策略的关键
在一个组织中,制定大数据战略需要理解业务目标和当前可用的数据,以及对帮助满足目标所需的额外数据的评估。接下来要采取的步骤包括:
- 对计划的用例和应用程序进行优先排序;
- 确定所需的新系统和工具;
- 创建部署路线图;和
- 评估内部技能,看看是否需要再培训或招聘。
为了确保大数据集是干净的、一致的和正确的使用,a数据治理计划和相关数据质量管理流程也必须是优先事项。其他管理和分析大数据的最佳实践包括关注对信息的业务需求,而不是可用技术,并使用数据可视化来帮助发现和分析数据。
大数据收集实践法规
随着大数据的收集和使用数据滥用的可能性也在增加。由于公众对数据泄露和其他个人隐私侵犯的强烈抗议,欧盟批准了《通用数据保护条例》(General data Protection Regulation,简称General data Protection Regulation)。gdpr.),该法律于2018年5月生效。GDPR限制了组织可以收集的数据类型,并要求个人选择同意或遵守收集个人数据的其他特定原因。它还包括一项被遗忘权条款,允许欧盟居民要求公司删除他们的数据。
虽然美国没有类似的联邦法律,但《加州消费者隐私法》(CCPA)旨在让加州居民更多地控制在该州做生意的公司收集和使用他们的个人信息。CCPA于2018年签署成为法律,并于2020年1月1日生效。
为了确保遵守这些法律,企业需要仔细管理收集大数据的过程。必须采取控制措施来识别受监管的数据,并防止未经授权的员工访问这些数据。
大数据管理和分析的人性化方面
最终,业务价值和大数据举措的好处依靠负责管理和分析数据的工人。一些大数据工具可以让技术含量较低的用户运行预测分析应用程序,或帮助企业部署适合大数据项目的基础设施,同时最小化对硬件和分布式软件的需求。
大数据可以与小数据形成对比,小数据有时被用来描述易于使用的数据集自助式BI和分析.一个常被引用的公理是,“大数据是机器的;小数据是给人的。”