-
有赞数据治理之提质降本
有赞数据治理的精髓就是九个字:大质量、全成本、重运营,其中涉及的质量分、成本账单都有可借鉴之处! 导读:有赞是通过SaaS起家的,经过多年的数据沉淀,有大量数据,可以说是一家大数据公司,但是有赞的最终目标是成为AI公司。在这个阶段,数据积累到一定体量,数据治理是非常有必要的。数据治理的最终目的也是服务AI、做智能应用,发挥数据的价值,而质量和成本是数据价值的核心所在。在有赞,是如何衡量质量好坏、成本高低的?又是如何依靠产品,结合运营的手段,提升质量,降低成本的?本文,为你揭晓。 一、数据治理概述…
-
Hive SQL迁移Spark SQL在网易传媒的实践
在整个迁移过程,除了前期踩坑阶段,期间线上基本没出什么问题,十分平滑的将2000左右的任务迁移到了sparkSql,而且也没耗费过多人力,这说明整个迁移方案的设计和实施是比较成功的。 引言:把基于mapreduce的离线hiveSQL任务迁移到sparkSQL,不但能大幅缩短任务运行时间,还能节省不少计算资源。最近我们也把组内2000左右的hivesql任务迁移到了sparkSQL,这里做个简单的记录和分享,本文偏重于具体条件下的方案选择。 迁移背景 SQL任务运行慢Hive SQL处理任务虽然…