一、概述 1.定义 Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。 2.消息队列 2.1.消息队列的两种模式 1)点对点 消息生产者生产消息发送到Queue中,然后消息消费者从Queue中取出并且消费消
一、MapReduce概述 1.定义 MapReduce是一个分布式运算程序的编程框架 2.MapReduce核心思想 MapReduce运算程序需要分为2个阶段:Map阶段和Reduce阶段 总结就是:分片聚集 3.MapReduce进程
1.下载elasticSearch 7.3.2 官网地址:https://www.elastic.co/downloads/elasticsearch 2.解压 修改conf下的elasticsearch.yml,末尾增加如下内容来保证外网
一、大数据相关工作介绍 大数据方向的工作目前主要分为三个主要方向: 大数据工程师 数据分析师 大数据科学家 其他(数据挖掘等) 二、大数据工程师的技能要求 必须掌握的技能 Java高级(虚拟机、并发) Linux 基本操作 Hadoop(H
在海量数据处理中,经常会遇到的一类问题就是在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常被成为top K问题,例如在搜索引擎中,统计最热门的10的查询词,在歌曲库中统计下载率最高的前10首歌曲。 针
在海量数据中查找重复出现的元素或者去除重复元素是经常遇到的大数据领域问题,针对此类问题,可以采用位图法来实现。例如,已知某文件中包含一些电话号码,每个号码为8位数字,统计不同号码的个数。 本题最好的解决方案是通过使用位图法来实现,8位整数可
海量数据处理中一类常见的问题就是排序问题,即对海量数据进行排序。例如,一个文件中有9亿条不重复的9位整数,对这个文件中的数字进行排序。 针对这个问题,最容易想到的方法是将所有数据导入内存中,然后使用常规排序方法比如快速排序,归并排序算法进行