• 以讲解性能作为 Kafka 之旅的开篇之作,让我们一起来深入了解 Kafka “快”的内部秘密。你不仅可以学习到 Kafka 性能优化的各种手段,也可以提炼出各种性能优化的方法论,这些方法论也可以应用到我们自己的项目之中,助力我们写出高性能的项目。
    MageByte

    发布于:1 天前

  • Spark调优之Shuffle调优本节开始先讲解Shuffle核心概念;然后针对HashShuffle、SortShuffle进行调优;接下来对map端、reduce端调优;再针对Spark中的数据倾斜问题进行剖析及调优;最后是Spark运行过程中的故障排除。本文首发于公众号【五分钟学大数据】,本公号专注于大数据技术,分享高质量大数据原创技术文章。一、Shuffle的核心概念1. ShuffleM
    园陌

    发布于:2 天前

  • 在互联网数据化运营实践中,有一类数据分析应用是互联网行业所独有的——路径分析。路径分析应用是对特定页面的上下游进行可视化展示并分析用户在使用产品时的路径分布情况
    vivo互联网

    发布于:11 天前

  • Spark调优之RDD算子调优不废话,直接进入正题!1. RDD复用在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算,如下图所示:RDD的重复计算对上图中的RDD计算架构进行修改,得到如下图所示的优化结果:RDD架构优化2. 尽早filter获取到初始RDD后,应该考虑尽早地过滤掉不需要的数据,进而减少对内存的占用,从而提升Spark作业的运行效率。本文首发于公众号:五分
    园陌

    发布于:20 天前

  • Apache Calcite快速入门与核心学习指导,带你快速掌握Calcite的基础用法
    xpleaf

    发布于:27 天前

  • 不懂hive中的explain,说明hive还没入门,学会explain,能够给我们工作中使用hive带来极大的便利!理论 本节将介绍 explain 的用法及参数介绍HIVE提供了EXPLAIN命令来展示一个查询的执行计划,这个执行计划对于我们了解底层原理,hive 调优,排查数据倾斜等很有帮助使用语法如下:EXPLAIN?[EXTENDED|CBO|AST|DEPENDENCY|AUTHORI
    园陌

    发布于:2021-02-20 20:46:01

  • Spark简介 Apache Spark是用于大规模数据处理的统一分析引擎,基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量硬件之上,形成集群。Spark源码从1.x的40w行发展到现在的超过100w行,有1400多位大牛贡献了代码。整个Spark框架源码是一个巨大的工程。下面我们一起来看下spark的底层执行原理。Spark运行流
    园陌

    发布于:2021-01-29 20:15:47

  • 深入理解Flink中的 checkpoint 机制
    园陌

    发布于:2021-01-27 20:18:54

  • 接着https://sb138.99sbgw.com/mapengfei/2581240这里用Flink来实现对APP在每个渠道的推广情况包括下载、查看、卸载等等行为的分析因为之前的文章都是用scala写的,这篇用java来实现一波,分别演示下用aggregate聚合方式和process方式的实现和效果整体思路1、准备好数据源:这里用SimulatedSource来自己随机造一批数据2、准备数据输入样
    马鹏飞

    发布于:2021-01-10 21:13:17

  • 我们在数仓项目的时候往往是需要将它分层的,但是为什么分层你真正的了解过吗,那它分层的好处又是什么呢。好我们今天就针对这个话题进行讲解,点赞,点赞,点赞 重要事情说三遍。
    大数据老哥

    发布于:2021-01-03 21:31:46

  • 跟https://sb138.99sbgw.com/mapengfei/2580330类似场景,来从Nginx、Apache等web服务器的日志中读取数据,实时统计出来访问热度最高的TOPN访问URL,并且要确保数据乱序的处理,lag等情况下,还要确认数据的准确性目标:从log文件中读取数据(也可以参考上一篇从kakfa中),取http的method为get的请求,并且把静态文件访问过滤掉,进行实时统
    马鹏飞

    发布于:2021-01-03 17:09:18

  • 记录一次事故处理50%kudu表无法进行正常访问测试环境kudu集群事故,影响:测试效果,测试进度,生产发布延迟,需警惕,特此写出过程操作需谨慎!操作需谨慎!操作需谨慎!任务环境都要以生产环境而对待!事故原因:昨天于上午10点,业务说kudu表无法使用后,影响测试,无法正常发布。去scm平台发现kudu_tablet挂了5台运维查看信息日志后,做近一步处理1.重启kudu—tablet发现无法启动
    大数据陈浩 专栏作者

    发布于:2020-12-21 15:27:43

  • prometheus+grafana对flink进行监控标签(空格分隔):flink系列一:flink监控简介二:Flink的Metric架构三:prometheus+grafana的对flink的监控部署构建一:flink监控简介1.1前言Flink提供的Metrics可以在Flink内部收集一些指标,通过这些指标让开发人员更好地理解作业或集群的状态。由于集群运行后很难发现内部的实际状况,跑得慢
    flyfish225

    发布于:2020-12-18 09:37:32

  • CDH6.3.2集成Freeipa的kerberos标签(空格分隔):大数据运维专栏一:系统环境二:CDH6.3.2集成freeipa的Kerberos一:系统环境1.2系统配置要求大数据的所有主机注入到FreeIPA当中cdh最低版本为CDH6.3.2版本二:CDH6.3.2集成freeipa的Kerberos2.1修改Kerberos的krb5.conf文件vim/etc/krb5.conf-
    flyfish225

    发布于:2020-12-16 09:29:59

  • 之前的转换算子是无法访问事件的时间戳信息和水位线信息的,而这在一些应用场景下,极为重要。例如MapFunction这样子的map转换算子就无法访问时间戳或者当前事件的事件事件。基于此,DataStreamAPI提供了一系列LOW-LEVEL的转换算子调用。可以访问时间戳,watermark以及注册定时事件,还可以输出特定的一些事件,例如超时时间等。processfunction用来构建事件驱动的应
    马鹏飞

    发布于:2020-11-25 21:54:42

  • 可能是Hadoop hdfs mapreduce最亲民的介绍
    删库到跑路

    发布于:2020-10-29 21:14:14

  • 大数据PAZR集成ldap实操!what? p:presto a:allixop z:zeppelin r:rancher
    大数据陈浩 专栏作者

    发布于:2020-07-07 17:45:03

  • 在业务增涨过程中,每个企业不知不觉积累积累了一些数据。无论数据是多是少,企业都希望让“数据说话”,通过对数据的采集、存储、分析、计算最终提供对业务有价值信息。 此时,大数据平台的搭建就是企业面临的问题,搭建大数据平台有哪些思路?怎么样的搭建路径可以让企业少走弯路?什么样的架构是业内标准?通过什么手段来分析和展示已有的数据? 或许这些问题会萦绕在您的心头,那么今天就一起来看看如何解答它们吧。
    51CTO崔皓 专栏作者

    发布于:2020-05-30 19:48:56

  • Phoenix整合HBase,像操作MySQL一样操作HBase
    兴趣e族

    发布于:2020-03-31 18:58:00

  • 1HDFS概述1.1HDFS产出背景及定义随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS(HadoopDistributedFileSystem),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式
    giverpg

    发布于:2019-09-07 00:55:36

    阅读 10000+ 评论 0 收藏 5 赞赏 1
  • 前言虽然同花顺之类的金融理财应用的数据足够好了,但还是有自己定制的冲动,数据自然不会不会比前者好很多,但是按照自己的想法来定制还是不错的。目标通过免费的数据接口获取数据,每日增量更新标的历史交易数据,然后通过Kibana做可视化及数据分析.其实自己通过echarts之类的可视化框架做可视化也是个不错的选择,不过前期成本太大。还有就是pandas+matplotlib已经足以应付大部分需求了,可是交
    youerning 专栏作者

    发布于:2019-07-27 12:32:05

    阅读 10000+ 评论 0 收藏 1
  • maxwell生产项目实操
    Stitch_x

    发布于:2019-06-28 17:17:26

  • 生产上保证数据零丢失(断批还原)
    Stitch_x

    发布于:2019-06-22 09:14:33

  • 一、何为分布式文件文件系统分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连,它的设计是基于客户端/服务器模式。如上图所示,应用服务器和文件服务器分别存在于网络当中,而这里的网络,可以是统一子网,也可以是不同子网。服务器对文件的存取,均在网络进行,这样就可以突破常用存储设备的容量限制。二、常用分布式文件
    司徒晓宇

    发布于:2018-12-12 16:48:39

    阅读 10000+ 评论 10 收藏 17
  • 小白问小明:“你前面有一个5米深的坑,里面没有水,如果你跳进去后该怎样出来了?”小明:“躺着出来呗,还能怎么出来?”小白:“为什么躺着出来?”小明:“5米深的坑,还没有水,跳下去不死就很幸运了,残是肯定会残的,不躺着出来,那能怎么出来?”小白:“假设没死也没残呢?”小明:“你当我超人了? 那也简单,把脑子里的水放出来就可以漂出来了。”小白:“你脑子里有这么多水吗?”小明:“我脑子里没那么多水我跳下去干嘛?” 
    小杨Java

    发布于:2018-11-05 21:04:57

  • 本文将分别使用 `Python` ,`Golang` 以及 `GraphQuery` 来解析某网站的素材详情页面, 通过这个页面的解析过程,深入浅出的了解爬虫的解析思想与这些语言之间的异同。
    Ox1管理员

    发布于:2018-11-02 10:31:28

  • Spark on Yarn with Hive实战案例与常见问题解决
    xpleaf

    发布于:2018-10-09 11:14:27

    阅读 10000+ 评论 0 收藏 2
  • 大数据实时计算完整项目案例,Flume+Kafka+Storm+Redis构建大数据实时处理系统:实时统计网站各省份PV、UV+动态展示。
    xpleaf

    发布于:2018-04-16 21:44:21

    阅读 10000+ 评论 133 收藏 31
  • 大数据采集、清洗、处理:使用MapReduce进行离线数据分析完整案例
    xpleaf

    发布于:2018-04-08 22:36:04

    阅读 10000+ 评论 152 收藏 32 赞赏 2
  • 分布式爬虫系统设计、实现与实战:爬取京东、苏宁易购全网手机商品数据+MySQL、HBase存储
    xpleaf

    发布于:2018-04-02 20:32:10

    阅读 10000+ 评论 54 收藏 11
推荐作者 更多
最新热评文章
51cto_blog:您的许多公式都没有展示出哦~
51cto_blog:博主大大,您的内容很优秀,如果整体更系统一些,公式都显示出来,会容易上推荐哦~
cisco_learner:大佬666
wx5fa649a288d1f:希望对您有帮助
写文章 申博娱乐现金网
网站地图 申博直营现金网 幸运大转盘 申博电子游戏 申博太阳城现金网
申博娱乐官网 申博电子游戏登入 申博开户平台登入 www.860msc.com
太阳城会员登入 申博官方网址 申博客户端下载 太阳城手机版
盛618网址 申博游戏网址 太阳城亚洲开户 极速百家乐
澳门大三巴赌场 菲律宾申博开户 极速百家乐 申博登录网址