大数据
Kylin构建原理
一、相关术语 1.维度:即观察数据的角度。 比如员工数据,可以从性别角度来分析,也可以更加细化,从入职时间或者地区的维度来观察。因此在统计时可以将维度值相同的记录聚合在一起,然后应用聚合函数做累加、平 【阅读更多...】
flume学习笔记
一、flume概述 1.定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 2.flume架构 2.1.Agen 【阅读更多...】
kafaka学习笔记
一、概述 1.定义 Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。 2.消息队列 2.1.消息队列的两种模式 1)点对点 消息生产者生产消息发送到Queue中,然 【阅读更多...】
hadoop系列四:MapReduce和Yarn笔记
一、MapReduce概述 1.定义 MapReduce是一个分布式运算程序的编程框架 2.MapReduce核心思想 MapReduce运算程序需要分为2个阶段:Map阶段和Reduce阶段 总结就 【阅读更多...】
elasticSearch使用笔记
1.下载elasticSearch 7.3.2 官网地址:https://www.elastic.co/downloads/elasticsearch 2.解压 修改conf下的elasticsear 【阅读更多...】
大数据生态系统(转载)
一、大数据相关工作介绍 大数据方向的工作目前主要分为三个主要方向: 大数据工程师 数据分析师 大数据科学家 其他(数据挖掘等) 二、大数据工程师的技能要求 必须掌握的技能 Java高级(虚拟机、并发) 【阅读更多...】
海量数据处理之Top K问题
在海量数据处理中,经常会遇到的一类问题就是在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常被成为top K问题,例如在搜索引擎中,统计最热门的10的查询词,在歌 【阅读更多...】
海量数据处理之重复问题
在海量数据中查找重复出现的元素或者去除重复元素是经常遇到的大数据领域问题,针对此类问题,可以采用位图法来实现。例如,已知某文件中包含一些电话号码,每个号码为8位数字,统计不同号码的个数。 本题最好的解 【阅读更多...】
海量数据处理之排序问题
海量数据处理中一类常见的问题就是排序问题,即对海量数据进行排序。例如,一个文件中有9亿条不重复的9位整数,对这个文件中的数字进行排序。 针对这个问题,最容易想到的方法是将所有数据导入内存中,然后使用常 【阅读更多...】
Hive简介及安装
一、Hive是什么 hive是基于hadoop的数据仓库。 二、Hive安装 安装Hive的前提是安装了hadoop和Mysql,这里不再赘述 。很简单的,网上教程很多。本文仅演示单机安装。 1、下载 【阅读更多...】