• 不懂hive中的explain,说明hive还没入门,学会explain,能够给我们工作中使用hive带来极大的便利!理论 本节将介绍 explain 的用法及参数介绍HIVE提供了EXPLAIN命令来展示一个查询的执行计划,这个执行计划对于我们了解底层原理,hive 调优,排查数据倾斜等很有帮助使用语法如下:EXPLAIN?[EXTENDED|CBO|AST|DEPENDENCY|AUTHORI
    园陌

    发布于:2021-02-20 20:46:01

  • 以下基于上篇Hadoop2.6集群部署:http://sb138.99sbgw.com/7876557/1661354接下来安装Hadoop数据仓库Hive,上节了解HBase简单使用,听起来HBase与Hive有些类似,概念也有点模糊,那我们先了解下他们之间有什么区别:  HBase是一种分布式、面向列的NoSQL数据库,基于HDFS存储,以表的形式存储数据,表由行
    李振良OK 专栏作者

    发布于:2015-06-26 13:52:59

    阅读 10000+ 评论 0 收藏 2
  •   搞了一段时间,hive2solr的job终于可以稳定的跑了,实现使用hive向solr插数据,主要是实现RecordWriter接口,重写write方法和close方法。下面对遇到的问题一一列出:1.数据覆盖问题,使用原子更新参考:http://sb138.99sbgw.com/1652935/15991372.重复构建solrserver和solrtable
    菜菜光

    发布于:2015-02-07 11:36:46

    阅读 10000+ 评论 2 收藏 0
  • 在测试hive0.14.0 on tez时遇到的问题比较多:1.在使用cdh5.2.0+hive0.14.0+tez-0.5.0测试时,首先遇到下面的问题java.lang.NoSuchMethodError: org.apache.tez.dag.api.client.Progress.getFailedTaskAttemptCount()I    &nb
    菜菜光

    发布于:2015-01-14 22:43:38

    阅读 10000+ 评论 0 收藏 0
  •   由于多个客户几次问到,RAC环境中,node2的归档日志,写入到node1的archive路径中。 这个问题导致一些客户在使用OGG的情况下,有时无法正确读取日志的问题。   那是什么原因导致的这个问题呢?  
    hsbxxl

    发布于:2014-12-19 12:36:50

  • hive创建目录时相关的几个hdfs中的类:org.apache.hadoop.hdfs.DistributedFileSystem,FileSystem 的具体实现类 org.apache.hadoop.hdfs.DFSClient,client操作hdfs文件系统的类 org.apache.hadoop.fs.permission.FsPermission 文件权限相关类,
    菜菜光

    发布于:2014-12-18 23:07:45

  •   hive权限有两层,hive本身的验证和hadoop的验证。自定义hive的proxy功能时,hive层面的相关验证更改在http://sb138.99sbgw.com/1652935/1587251 中已经提过,这里说下hive和hadoop以及本地文件系统相关的几个出现用户的地方:1.job的log文件session初始化时会初始化日志文件,主要在Sess
    菜菜光

    发布于:2014-12-14 21:42:23

  •   Driver类是对org.apache.hadoop.hive.ql.processors.CommandProcessor.java接口的实现,重写了run方法,定义了常见sql的执行方式.public class Driver implements CommandProcessor具体的方法调用顺序:run--->runInterna
    菜菜光

    发布于:2014-11-04 23:59:35

    阅读 10000+ 评论 0 收藏 0
  • 虚拟化,KVM,guestfish
    xiaoli110

    发布于:2014-10-27 08:29:27

    阅读 10000+ 评论 4 收藏 1
  •   在hive的源码中经常可以看到shims相关的类,shims相关类是用来兼容不同的hadoop和hive版本的,以HadoopShims为例org.apache.hadoop.hive.shims.HadoopShims是一个接口,具体的实现类为org.apache.hadoop.hive.shims.Hadoop20Shims org.apache.hadoop.hive.shim
    菜菜光

    发布于:2014-10-15 23:45:35

    阅读 10000+ 评论 0 收藏 0
  •   最近在debug hive的一个bug,之前都是使用打印日志来跟踪源码,这种方式效率比较低(每次更改了源码都要重新编译并替换线上的jar包),java的应用可以支持remote debug的,hive也不例外,主要是通过hive --debug来实现.在运行hive --debug时遇到如下问题:ERROR: Cannot load this 
    菜菜光

    发布于:2014-10-15 00:04:36

    阅读 10000+ 评论 0 收藏 0
  • ActiveReports的成长史,也见证了中国研发创新的历程:从远观,到参与,到主导。
    葡萄城技术团队

    发布于:2014-08-26 14:08:25

  •   今天有个etl开发在drop partition的时候遇到了问题,因为是使用了自己的账号,而hdfs中对应partition的文件属主是hdfs的,在删除时会因为权限问题报错,切换用户为hdfs,做drop partition的错误,还是报错,看来没这么简单。查看表的hdfs属性,目录的属主不是hdfs且目录对 hdfs没有写权限:[hdfs@nfzm ~]$&n
    菜菜光

    发布于:2014-08-22 21:11:10

  • 在debug hive的问题时,我们经常需要在源码里面增加必要的日志信息,来跟踪变量的变化或者是方法执行的情况,性能等。。hive里面有下面几个日志的实现方式。1种是常用的通过org.apache.commons.logging.Log和org.apache.commons.logging.LogFactory类实现的。比如要打印类的info信息时,只需要下面这样就可以。static f
    菜菜光

    发布于:2014-08-18 22:38:20

  • 昨天微软的Visual Studio 2013 Update 3(Visual Studio 2013.3)正式发布(RTM)了,做为微软认证金牌合作的葡萄城控件,我们组织力量第一时间进行翻译、分享给大家:下载 Visual Studio 2013 Update 3此更新程序是最新的一个累加了新功能和错误修复的Visual Studio2013,您可以从以下链接获得Visual Studio201
    葡萄城技术团队

    发布于:2014-08-05 19:02:32

  •   最近有个业务建表使用了 RegexSerDe,之前虽然也它来解析nginx日志,但是没有做深入的了解。这次看了下其实现方式。建表语句:CREATE external TABLE ods_cart_log ( time_local STRING, request_json  STRING, trace_id_num 
    菜菜光

    发布于:2014-07-30 22:03:39

  • 升级hive0.13之后发现job运行完成后Rows loaded的信息没有了。rows loaded的信息在hive0.11中由HiveHistory类的printRowCount输出。HiveHistory类的主要用途是记录job运行的信息,包括task的counter等。默认的目录在/tmp/$user中。 hive0.11在SessionState 的start方法中会
    菜菜光

    发布于:2014-07-24 00:17:40

  • 最近线上的hive升级到了0.13,遇到不少问题。权限上面,设置了hive.security.authorization.createtable.owner.grants 在hive0.13中,用户自己创建的表也没有权限。通过对源码的分析和debug找到了rc并fix,下面记录下。1.首先在hive0.11中和hive0.13中分别做建表测试,通过查看数据库中的元数据,发现在hive0.11中如果
    菜菜光

    发布于:2014-07-19 09:41:42

  •     最近在研究Hue,遇到一个问题,在Hive Editor写一个HQL,提交后会报权限错误,类似这样的Authorization failed:No privilege 'Select' found for inputs {database:xxx, table:xxx,&
    wangxucumt

    发布于:2014-07-04 09:18:24

  • 最近在测试hive导入solr,github上有个相关的代码https://github.com/chimpler/hive-solr其原理就是实现inputformat和outputformat,通过mapred来做数据的读写操作。测试的表结构:show create table table_in_solr1; CREATE EXTERNAL T
    菜菜光

    发布于:2014-06-05 19:09:54

  • 对于hdfs来说,系统的压力主要集中在namenode  如果在整个hadoop集群中存在大量的小文件,会消耗namenode的大量内存(大概146B一个元数据)另一方面,如果小文件过多,有没有开启combine inputformat,在进行split分片的时候,会产生大量的map,严重影响到mapred的利用率。定期对小文件进行清理就会变得很必要,比如我会每天有报表来获取hive中表
    菜菜光

    发布于:2014-05-20 13:15:07

    阅读 10000+ 评论 0 收藏 0
  •    前段时间遇到了一个很诡异的发生的Map阶段的OOM异常,花了些时间才找到原因,这个简要记录一下。    先看log。 节点一的TaskTracker的log:节点二的TaskTracker的log:节点三的TaskTracker的log:其他节点的TaskTracker中的log都和slave4的一样的:故障分析:    OOM是
    zengzhaozheng

    发布于:2014-05-19 14:49:00

  • 昨天下午有20多分钟Hadoop平台无法跑Hive,Jobtracker的页面也打不开,hadoop job –list也hang住没有响应,过了10分钟后恢复了,查看gc日志发现Jobtracker没有进行full gc,查看这段时间的Job日志发现一个可疑的Hive SQL: Insert into table t(dt) as select xxx,dt from txx,是一个用了动态分区
    MIKE老毕

    发布于:2014-03-21 14:38:52

  • 我这有个业务,专门存储LOG日志的,每天都会有上千万数据,所以采用了archive存储引擎,这样写入上较快,也比较节省空间。archive存储引擎这里简单介绍下:这个可以说和MyISAM引擎差不多,备份的时候直接cp拷贝数据文件,恢复时直接cp拷贝到MySQL数据目录,而且在空间上节省了不少,下面来看看。通过物理文件,可以明显的对比出来。看看磁盘IO性能图压力有所变小。好,下面说一个注意事项。今天
    hcymysql

    发布于:2013-11-29 17:25:32

  • 线上一个查询简化如下:Selectdt,count(distinct c1) , count(distinct case when c2>0 and c1=0 then c1 end),count(distinct case when c2>0 and c1>0 then c1 end) from t where dtbetween ‘20131108’ and ‘2013111
    MIKE老毕

    发布于:2013-11-09 15:42:36

  • 通过查询微软technet的文档资料,得知DPM 2010是没有办法直接升级到DPM 2012 SP1的,需要先升级到DPM 2012 RTM,然后再从DPM 2012 RTM升级到DPM 2012 SP1。大致经过如下的步骤:1)首先将DPM 2010升级到DPM 2012 RTM版本;升级过程可以参考我的文章:http://sb138.99sbgw.com/639838/109
    zengchuixin2008

    发布于:2013-09-24 11:25:32

  • Log-Cutter 是 JessMA 开源组织开发的一个简单实用的日志切割清理工具。 1、支持 Linux、Mac 和 Windows 等所有常见操作系统平台 2、支持命令行交互式运行 3、支持后台非交互式运行(Linux/MAC 下使用 daemon 进程实现,Windows 用系统 Service 实现) 4、支持三种日志清理方式(删除日志文件、切割日志文件或归档日志文件) 5、支持对 GB18030、UTF-8、UTF-16LE、UTF-16BE 等常用日志文件类型进行切割 6、高度可配置(程序执行
    dumiyue

    发布于:2013-09-23 10:32:54

  •        Hive是一种构建在Hadoop上的数据仓库,Hive把SQL查询转换为一系列在Hadoop集群中运行的MapReduce作业,是MapReduce更高层次的抽象,不用编写具体的MapReduce方法。Hive将数据组织为表,这就使得HDFS上的数据有了结构,元数据即表的模式,都存储在名为metastore的数据库中。   &nbs
    zhao_xiao_long

    发布于:2013-09-04 15:13:21

    阅读 10000+ 评论 0 收藏 1
  • "为什么我不能做我知道应该做的事情呢?"   对这个问题的回答,如果原因在自己,看看能不能自我改正;如果原因在他人,看看能不能与对方一起解决;如果解决不了,看看是否要另找一个新的环境。在 成为一个敏捷的人 练习中我们提到环境外因以及内心思维内因,这两类原因都会作为一个借口来阻止我们变化去做一些事情。然而,我们还存在很多知道应该去做的事情,但是总是不能做到,你有这种情况吗?  本
    jingen_zhou

    发布于:2013-07-01 17:04:10

  • 在《101每日发现练习》打印书籍 中提到敏捷个人的一个重要练习【每日发现】,大家也可以在敏捷个人新浪微刊查看。现在我从书中每天练习中抽取了一张作为卡片打印出来,共100张,作为日常练习使用。可以每天抽取一两张,随身携带,做公交、坐地铁、等车等各种碎时间都可以拿出来看一眼,激发自己思考,我相信等卡片都看完之后,你将对自己有个全新全面的认识。卡片以上卡片还漏拍了几张,有些拍的有点虚,实际卡片全部为清晰
    jingen_zhou

    发布于:2013-06-08 10:32:31

推荐作者 更多
最新热评文章
51cto_blog:您的许多公式都没有展示出哦~
51cto_blog:博主大大,您的内容很优秀,如果整体更系统一些,公式都显示出来,会容易上推荐哦~
cisco_learner:大佬666
wx5fa649a288d1f:希望对您有帮助
写文章 申博娱乐现金网
网站地图 百家乐登入网址 申博网址 澳门赌场 百家乐登入网址
申博游戏注册登入 申博电子游戏 菲律宾申博官方网址 申博代理网登入
菲律宾太城申博 菲律宾太城申博 申博手机版 保险百家乐
申博网址 申博太阳城直营网 申博现金网址 申博官网登录
申博游戏登入不了 太阳城申博官网 申博游戏平台 申博会员登入