月眸


月眸

Kylin构建原理

一、相关术语 1.维度:即观察数据的角度。 比如员工数据,可以从性别角度来分析,也可以更加细化,从入职时间或者地区的维度来观察。因此在统计时可以将维度值相同的记录聚合在一起,然后应用聚合函数做累加、平均、最大和最小值等聚合计算。 2.度量:


毛毛小妖 623浏览 0条评论 2020年03月24日 阅读全文

flume学习笔记

一、flume概述 1.定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 2.flume架构 2.1.Agent Agent是一个JVM进程,它以事件


毛毛小妖 585浏览 0条评论 2020年03月03日 阅读全文

kafaka学习笔记

一、概述 1.定义 Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。 2.消息队列 2.1.消息队列的两种模式 1)点对点 消息生产者生产消息发送到Queue中,然后消息消费者从Queue中取出并且消费消


毛毛小妖 1872浏览 2条评论 2020年03月02日 阅读全文

hadoop系列四:MapReduce和Yarn笔记

一、MapReduce概述 1.定义 MapReduce是一个分布式运算程序的编程框架 2.MapReduce核心思想 MapReduce运算程序需要分为2个阶段:Map阶段和Reduce阶段 总结就是:分片聚集 3.MapReduce进程


毛毛小妖 730浏览 0条评论 2020年02月17日 阅读全文

elasticSearch使用笔记

1.下载elasticSearch 7.3.2 官网地址:https://www.elastic.co/downloads/elasticsearch 2.解压 修改conf下的elasticsearch.yml,末尾增加如下内容来保证外网


毛毛小妖 456浏览 0条评论 2019年10月23日 阅读全文

大数据生态系统(转载)

一、大数据相关工作介绍 大数据方向的工作目前主要分为三个主要方向: 大数据工程师 数据分析师 大数据科学家 其他(数据挖掘等) 二、大数据工程师的技能要求 必须掌握的技能 Java高级(虚拟机、并发) Linux 基本操作 Hadoop(H


毛毛小妖 984浏览 0条评论 2019年07月25日 阅读全文

海量数据处理之Top K问题

在海量数据处理中,经常会遇到的一类问题就是在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常被成为top K问题,例如在搜索引擎中,统计最热门的10的查询词,在歌曲库中统计下载率最高的前10首歌曲。 针


毛毛小妖 1348浏览 0条评论 2019年03月04日 阅读全文

海量数据处理之重复问题

在海量数据中查找重复出现的元素或者去除重复元素是经常遇到的大数据领域问题,针对此类问题,可以采用位图法来实现。例如,已知某文件中包含一些电话号码,每个号码为8位数字,统计不同号码的个数。 本题最好的解决方案是通过使用位图法来实现,8位整数可


毛毛小妖 687浏览 0条评论 2019年03月04日 阅读全文

海量数据处理之排序问题

海量数据处理中一类常见的问题就是排序问题,即对海量数据进行排序。例如,一个文件中有9亿条不重复的9位整数,对这个文件中的数字进行排序。 针对这个问题,最容易想到的方法是将所有数据导入内存中,然后使用常规排序方法比如快速排序,归并排序算法进行


毛毛小妖 850浏览 0条评论 2019年02月28日 阅读全文

Hive简介及安装

一、Hive是什么 hive是基于hadoop的数据仓库。 二、Hive安装 安装Hive的前提是安装了hadoop和Mysql,这里不再赘述 。很简单的,网上教程很多。本文仅演示单机安装。 1、下载 下载地址:http://hive.ap


毛毛小妖 645浏览 0条评论 2019年02月22日 阅读全文
1 2