0%

1.安装Git

下载Windows下的Git客户端并安装,安装很简单,基本一路Next下去

2.安装Node.js

下载Node.js,安装Node.js也是一路Next下去,打开命令行输入node如果出现一个向右的箭头就说明安装成功

Read more »

一、简介

HUE=Hadoop User Experience

Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job,执行Hive的SQL语句,浏览HBase数据库等等。

Hue在数据库方面,默认使用的是SQLite数据库来管理自身的数据,包括用户认证和授权,另外,可以自定义为MySQL数据库、Postgresql数据库、以及Oracle数据库。其自身的功能包含有:

Read more »

Hive sql函数

一、关系运算

  1. 等值比较: =
    select 1 from dual where 1 = 2;
  2. 等值比较:<=>
    a <=> b
  3. 不等值比较: <>和!=
    a != b || a <> b
  4. 小于比较: <
    a < b
  5. 小于等于比较: <=
    a <= b
  6. 大于比较: >
    a > b
  7. 大于等于比较: >=
    a >= b
Read more »

一、简介

要访问HDFS上的数据可以通过shell命令和API
如果要处理HDFS上的数据可以通过MapReduce,但MR的操作门槛比较高,eg:需要不断的进行调试,如果无法在本地运行,需要不断地导出jar包放到linux下进行调试

Hive是通过一种叫做HQL的类SQL语句来处理HDFS上的数据,但是和SQL不一样的是,HQL语言会转换为MR程序执行(select * from table不需要,因为select * from table只是对全部文件数据进行读取,并没有对数据进行操作)

Hive元数据:指在Hive中创建的数据库、表、视图等信息。这些元数据存储在关系型数据库中,比如MySQL

Read more »

Yarn

  1. Yarn的简介
    Yarn是Hadoop集群的资源管理系统,Hadoop2.0对MapReduce框架做了彻底的设计重构。
    Hadoop1.x对MapReduce job的调度管理方式主要包括两部分功能:** ResourceManagement 资源管理** 和 JobScheduling/JobMonitoring 任务调度监控
    到了Hadoop2.x也就是Yarn,它的目标是将这两部分功能分开,也就是分别用两个进程来管理这两个任务,将此拆分成了ResourceManagerApplicationMaster
    需要注意的是,在Yarn中我们把job的概念换成了application,因为在新的Hadoop2.x中,运行的应用不只是MapReduce了,还有可能是其它应用如一个DAG(有向无环图Directed Acyclic Graph,例如storm应用)。

    Read more »