首页 > 人工智能AI > 大数据 > 正文

大数据计算过程概述

大数据计算过程概述

随着当今社会信息化的不断发展,物联网时代正在迅速到来,大数据技术正在蓬勃发展,其计算过程对现代信息技术的发展具有重要意义。本文从以下几个方面讨论大数据计算过程:计算模型、数据处理和计算框架。

一、 计算模型

计算模型是对大数据处理的整体架构,是编程算法中的一个实现算法。大数据计算常用常用的计算模型的有:MapReduce、DAG-on-Spark、Stream Processing和Flink等。

1) MapReduce。在编程中,MapReduce是一种常用的分布式计算模型,可以有效实现大规模数据处理,是分布式系统中非常流行的一种方案。它的主要思想是在大规模数据的处理过程中,将原有的大任务分割成若干个小任务,每个小任务通过Map和Reduce两个阶段实现:Map阶段将原始数据切分多份,具体任务发送给各个节点,Reduce阶段收集多个节点的处理结果进行合并,最终形成总体的处理结果。

2) DAG-on-Spark。DAG-on-Spark是一种基于MapReduce的任务调度系统,可以有效地实现数据的分布式处理。它采用任务分解、调度技术、资源(如:分布式集群和磁盘)控制来实现分布式计算任务的自动调度,从而可以应用于大规模数据的处理。

3) Stream Processing。Stream Processing是一种可用于实时运行、监视和处理大量数据的流式处理技术,用于实时获取、处理和传递大量数据流中的信息。它的主要处理模型包括数据的收集、处理、存储和输出等步骤,用于实时事件检测、分析和反馈。

4) Flink。Flink是一个用于大规模数据处理的分布式计算平台,具有可以准实时的大数据处理能力。Flink引入了数据流处理模型,它可以支持流动作,从而构建一个实时处理系统,用于处理数据流中的信息。

二、 数据处理

数据处理是大数据计算的关键环节,可以将数据从不结构到逻辑管理,结构管理到可分析性的变换过程。数据处理中常用的技术有:

1) 数据抽取技术。用于抽取大数据中的数据,通常采用多种方法,如:关系数据库中的SQL语句、非结构化数据抓取技术等。

2) 特征提取技术。通过对大数据进行预处理,从数据中抽取有用的特征,用以识别数据的样式。

3) 数据存储技术。对数据采用不同的存储方式来提高储存空间的利用率,一般结合文件系统、数据库系统和列存储系统等多种存储技术,可以最大限度地利用磁盘等存储设备的空间。

4) 数据清洗技术。数据清洗是数据处理中比较关键的一个步骤,主要是将不符合要求的数据进行清洗,从而保证数据的有效性和准确性。

5) 数据挖掘技术。数据挖掘是一种从大量数据中挖掘出有用信息的技术,可以有效分类、发现和预测数据,比如:

关联分析(Association Rules),决策树(Decision Tree),朴素贝叶斯(Naive Bayes),聚类(Clustering),潜在语义索引(Latent Semantic Indexing, LSI)和神经网络(Neural Network)等。

三、 计算框架

计算框架提供了一个可扩展的系统解决方案,用于实现大数据计算。它主要由集群环境、操作系统和计算引擎等构成:

1) 集群环境。集群环境指的是遵循分布式计算的原理,将一组有着相同功能的计算机组织起来,并划分为若干个节点,暂时形成一个超级计算机完成大规模机器的计算任务。

2) 操作系统。操作系统是一种系统软件,它的主要功能是安排计算机系统的各个组成部分,维护系统的资源,为用户提供一个友好的操作环境,支持实时作业调度、分布式计算和系统管理等工作。

3) 计算引擎。计算引擎是构建在集群环境和操作系统之上的组件,可以自动考虑执行任务的各种计算机参数,如:内存、存储等,把多个任务拆分成一个一个任务,然后把这些任务发送到对应的计算机上,完成一个系统的

打赏
海报

本文转载自互联网,旨在分享有价值的内容,文章如有侵权请联系删除,部分文章如未署名作者来源请联系我们及时备注,感谢您的支持。

转载请注明本文地址:http://www.atpbike.com/article/dashuju/1393.html

相关推荐

支付宝
微信
赞助本站