大数据分析
大数据分析是往往复杂的检查过程大数据揭示信息——如隐藏的模式、相关性、市场趋势和客户偏好——可以帮助组织做出明智的商业决策。
在广泛的规模上,数据分析技术和技术为组织提供了一种分析数据集的方法并收集新信息。商业智能(BI)查询回答有关业务运营和性能的基本问题。
大数据分析是一个高级分析形式,这涉及具有预测模型,统计算法,统计算法以及由分析系统提供的分析的元素的复杂应用。
为什么大数据分析很重要?
组织可以使用大数据分析系统和软件,以做出数据驱动的决策这可以改善与业务相关的结果。好处可能包括更有效的营销,新的收入机会,客户个性化和提高运营效率。有了有效的策略,这些好处可以提供相对于竞争对手的竞争优势.
大数据分析是如何工作的?
数据分析师,数据科学家预测建模师、统计学家和其他分析专业人员收集、处理、清理和分析数量不断增长的结构化交易数据,以及传统BI和分析程序没有使用的其他形式的数据。
以下是数据准备过程的四个步骤概述:
- 数据专业人员收集各种不同来源的数据。通常,这是一个混合体半结构化和非结构化数据。虽然每个组织将使用不同的数据流,但一些常见源包括:
- 互联网点击流数据;
- Web服务器日志;
- 云应用程序;
- 移动应用;
- 社交媒体内容;
- 来自客户电子邮件和调查响应的文本;
- 移动电话记录;和
- 机器数据捕获传感器连接到物联网(IoT)。
- 数据是加工过的.收集数据后并存储在一个数据之后数据仓库或数据湖,数据专业人员必须为分析查询正确地组织、配置和分区数据。全面的数据处理可以提高分析查询的性能。
- 数据是洁净质量。数据专业人员使用脚本工具或企业软件擦除数据。他们寻找任何错误或不一致,例如重复或格式错误,并组织和整理数据。
- 的收集、处理、清理数据是分析了分析软件。这包括以下工具:
- 数据挖掘,筛选数据集以寻找模式和关系
- 预测分析,建立模型,以预测客户行为和其他未来的发展
- 机器学习,哪种水龙头算法分析大数据集
- 深度学习,这是一个更先进的机器学习分支
- 文本挖掘和统计分析软件
- 人工智能(AI)
- 主流商业智能软件
- 数据可视化工具
关键的大数据分析技术和工具
许多不同类型的工具和技术被用于支持大数据分析过程。用于实现大数据分析流程的常用技术和工具包括:
- Hadoop,这是用于存储和处理大数据集的开源框架。Hadoop可以处理大量的结构化和非结构化数据。
- 预测分析硬件和软件,处理大量复杂数据,并使用机器学习和统计算法进行预测关于未来事件的结果。企业使用预测分析工具进行欺诈检测、营销、风险评估和运营。
- 流分析工具,用于过滤、聚合和分析可能以多种不同格式或平台存储的大数据。
- 分布式存储复制的数据通常在非关系数据库上。这可以是针对独立节点故障,丢失或损坏的大数据的措施,或提供低延迟访问。
- NoSQL数据库,这是使用大组分布式数据时有用的非关系数据管理系统。它们不需要固定的模式,这使其成为原始和非结构化数据的理想选择。
- 数据湖是一个大型存储库,在需要时保存本机格式的原始数据。数据湖使用扁平架构。
- 一个数据仓库,这是一个存储库,存储由不同来源收集的大量数据。数据仓库通常使用预定义模式存储数据。
- 知识发现/大数据挖掘工具,使企业能够挖掘大量的结构化和非结构化大数据。
- 内存数据结构,它跨系统内存资源分配大量数据。这有助于为数据访问和处理提供低延迟。
- 数据虚拟化,这使得数据访问能够无需技术限制。
- 数据集成软件,这使得能够在不同的平台上简化大数据,包括Apache,Hadoop,MongoDB和Amazon EMR。
- 数据质量的软件,清洁并丰富大数据集。
- 数据预处理软件,这准备了数据进行进一步分析。数据格式化并清除非结构化数据。
- 火花,这是用于批处理和流数据处理的开源集群计算框架。
大数据分析应用程序通常包括来自内部系统和外部来源的数据,如天气数据或第三方信息服务提供商编制的消费者人口统计数据。此外,流分析应用程序在大数据环境中越来越常见,因为用户希望执行实时分析通过流处理引擎馈送到Hadoop系统的数据,例如火花,传递和风暴。
早期的大数据系统大多部署在现场,特别是在收集、组织和分析大量数据的大型组织中。但是云平台供应商,如Amazon Web Services (AWS)、谷歌和微软,已经使在云中设置和管理Hadoop集群变得更容易。Cloudera等Hadoop供应商也是如此,它支持在AWS、谷歌和微软Azure云。用户现在可以在云中旋转群集,只要他们需要,就可以运行它们,然后将它们脱机,并使用基于使用的定价来脱机,这不需要持续的软件许可证。
大数据变得越来越有益供应链分析.大量供应链分析利用大数据和定量方法来增强供应链中的决策过程。具体而言,大量供应链分析扩展了数据集以增加超出企业资源规划中的传统内部数据的分析(ERP.)和供应链管理(SCM)系统。此外,大型供应链分析在新的和现有数据源上实现了高效的统计方法。
大数据分析使用和示例
以下是一些大数据分析如何用于帮助组织的示例:
- 获取和保留客户。消费者数据可以帮助公司的营销工作,公司可以根据趋势采取行动,提高客户满意度。例如,个性化引擎对于亚马逊,Netflix和Spotify可以提供改进的客户体验并创造客户忠诚度。
- 有针对性的广告。来自过去购买的来源的个性化数据,交互模式和产品页面查看历史可以帮助为个人级别和更大的尺度生成对用户的引人注目的目标广告活动。
- 产品开发。大数据分析可以提供洞察,以了解产品存活率,开发决策,进展测量和转向,以适应商务客户的指导。
- 价格优化。零售商可能会选择使用和模拟来自各种数据源的数据的定价模型,以实现收入最大化。
- 供应链和通道分析。预测分析模型可以帮助抢购抢购,B2B供应商网络,库存管理,路线优化以及潜在延误的通知。
- 风险管理。大数据分析可以从数据模式中识别有效风险管理策略的数据模式的新风险。
- 改善决策。业务用户从相关数据中提取的见解可以帮助组织更快、更好地做出决策。
大数据分析效益
使用大数据分析的好处包括:
- 快速分析来自不同来源、不同格式和类型的大量数据。
- 迅速做出更好的知情决策,以有效策略化,这可以有利和改善战略决策的供应链,运营和其他领域。
- 成本节约,这可以来自新的业务流程效率和优化。
- 更好地了解客户需求,行为和情绪,这可能导致更好的营销洞察力,并为产品开发提供信息。
- 改善,更好地了解风险管理从数据的大量样本尺寸绘制的策略。
大数据分析挑战
尽管使用大数据分析带来了广泛的好处,但它的使用也面临着挑战:
- 数据的可访问性。随着数据量的增加,存储和处理变得更加复杂。大数据应妥善存储和维护,以确保经验不足的数据科学家和分析师能够使用大数据。
- 数据质量维护。由于大量数据来自不同的来源和不同的格式,数据质量管理对于大数据需要大量的时间,努力和资源来正确维护它。
- 数据安全。大数据系统的复杂性带来了独特的安全挑战。在如此复杂的大数据生态系统中,正确解决安全问题可能是一项复杂的任务。
- 选择合适的工具。从市场上提供的大量大数据分析工具和平台上选择可能会令人困惑,因此组织必须知道如何选择与用户需求和基础架构对齐的最佳工具。
- 由于可能缺乏内部分析技能,以及雇佣有经验的数据科学家和工程师的成本很高,一些组织发现很难填补这一空缺。
大数据分析的历史与发展
期限大数据在20世纪90年代中期,这个词首次用于指不断增长的数据量。2001年,当时在咨询公司Meta Group Inc.担任分析师的道格•兰尼(Doug Laney)扩大了大数据的定义。这种扩张描述了:
- 组织存储和使用的数据量;
- 组织生成的各种数据;和
- 速度或速度,其中正在创建和更新数据。
这三个因素被称为3对大数据。Gartner在2005年收购Meta Group并聘用Laney后,推广了这一概念。
其他大数据史上的重大发展是Hadoop分布式处理框架的推出。Hadoop被推出为Apache2006年开源项目。这将种植用于在商品硬件顶部的集群平台的种子,可以运行大数据应用。软件工具的Hadoop框架广泛用于管理大数据。
到2011年,随着Hadoop和各种相关的大数据技术,大数据分析开始在组织和公众眼中站稳脚跟。
最初,随着Hadoop生态系统的形状并开始成熟,大数据应用主要由大型互联网和电子商务公司,如雅虎,谷歌和Facebook,以及分析和营销服务提供商。
最近,更广泛的用户将大数据分析带到一个关键技术驾驶数字转换.用户包括零售商,金融服务公司,保险公司,医疗组织,制造商,能源公司等企业。