月眸


月眸

大数据生态系统

一、大数据相关工作介绍 大数据方向的工作目前主要分为三个主要方向: 大数据工程师 数据分析师 大数据科学家 其他(数据挖掘等) 二、大数据工程师的技能要求 必须掌握的技能 Java高级(虚拟机、并发) Linux 基本操作 Hadoop(H


毛毛小妖 254浏览 0条评论 2019年07月25日 阅读全文

海量数据处理之Top K问题

在海量数据处理中,经常会遇到的一类问题就是在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常被成为top K问题,例如在搜索引擎中,统计最热门的10的查询词,在歌曲库中统计下载率最高的前10首歌曲。 针


毛毛小妖 325浏览 0条评论 2019年03月04日 阅读全文

海量数据处理之重复问题

在海量数据中查找重复出现的元素或者去除重复元素是经常遇到的大数据领域问题,针对此类问题,可以采用位图法来实现。例如,已知某文件中包含一些电话号码,每个号码为8位数字,统计不同号码的个数。 本题最好的解决方案是通过使用位图法来实现,8位整数可


毛毛小妖 216浏览 0条评论 2019年03月04日 阅读全文

海量数据处理之排序问题

海量数据处理中一类常见的问题就是排序问题,即对海量数据进行排序。例如,一个文件中有9亿条不重复的9位整数,对这个文件中的数字进行排序。 针对这个问题,最容易想到的方法是将所有数据导入内存中,然后使用常规排序方法比如快速排序,归并排序算法进行


毛毛小妖 217浏览 0条评论 2019年02月28日 阅读全文

Hive简介及安装

一、Hive是什么 hive是基于hadoop的数据仓库。 二、Hive安装 安装Hive的前提是安装了hadoop和Mysql,这里不再赘述 。很简单的,网上教程很多。本文仅演示单机安装。 1、下载 下载地址:http://hive.ap


毛毛小妖 203浏览 0条评论 2019年02月22日 阅读全文

Hdfs详解

一、Hdfs简介 hdfs是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件,并且是分布式的,由很多服务器联合起来实现其功能,集群中的服务器各自负责角色;   重要特征:   1、HDFS中的文件在物理上是分块存储(blo


毛毛小妖 286浏览 0条评论 2019年01月28日 阅读全文