大数据
hadoop系列四:MapReduce详解
一、MapReduce概述 1.MapReduce定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce的核心功能是将用户 【阅读更多...】
elasticSearch初体验
1.下载elasticSearch 7.3.2 官网地址:https://www.elastic.co/downloads/elasticsearch 2.解压 修改conf下的elasticsear 【阅读更多...】
大数据生态系统
一、大数据相关工作介绍 大数据方向的工作目前主要分为三个主要方向: 大数据工程师 数据分析师 大数据科学家 其他(数据挖掘等) 二、大数据工程师的技能要求 必须掌握的技能 Java高级(虚拟机、并发) 【阅读更多...】
海量数据处理之Top K问题
在海量数据处理中,经常会遇到的一类问题就是在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常被成为top K问题,例如在搜索引擎中,统计最热门的10的查询词,在歌 【阅读更多...】
海量数据处理之重复问题
在海量数据中查找重复出现的元素或者去除重复元素是经常遇到的大数据领域问题,针对此类问题,可以采用位图法来实现。例如,已知某文件中包含一些电话号码,每个号码为8位数字,统计不同号码的个数。 本题最好的解 【阅读更多...】
海量数据处理之排序问题
海量数据处理中一类常见的问题就是排序问题,即对海量数据进行排序。例如,一个文件中有9亿条不重复的9位整数,对这个文件中的数字进行排序。 针对这个问题,最容易想到的方法是将所有数据导入内存中,然后使用常 【阅读更多...】
Hive简介及安装
一、Hive是什么 hive是基于hadoop的数据仓库。 二、Hive安装 安装Hive的前提是安装了hadoop和Mysql,这里不再赘述 。很简单的,网上教程很多。本文仅演示单机安装。 1、下载 【阅读更多...】
hadoop系列三:Hdfs详解
一、HDFS概述 1.HDFS定义 HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,有很多服务器联合 【阅读更多...】
hadoop系列二:Hadoop集群搭建
一、准备工作 1.安装centos7虚拟机 2.安装VMTools 3.关闭防火墙 systemctl stop firewalld systemctl disable firewalld 4.设置静 【阅读更多...】
hadoop系列一:Hadoop简介
一、hadoop介绍 HADOOP是apache旗下的一套开源软件平台 HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 HADOOP的核心组件有 HDFS( 【阅读更多...】