科技网

当前位置: 首页 >互联网

阿里巴巴B2B数据应用总监实例分析大数据同

互联网
来源: 作者: 2019-02-11 18:39:34

本文为阿里巴巴B2B数据应用部总监刘丽娟在功虎百家上演讲速记整理,刘丽娟分享了阿里巴巴在实际业务中如何运用大数据价值,从方法论入手提出了大数据分析办法。以下为演讲实录:

今天在这里很高兴跟大家分享《在业务中发挥大数据价值》这个课题。

我是浙江大学的校友,92年去了美国读研,之后加入了雅虎,开始了大数据行业的工作。那个时候大数据这个词汇还没有被创造出来,但是实际上当时的数据已经非常海量了。

我在雅虎当时所处的部门是搜索广告部。雅虎每天的点击量有几十亿,搜索广告是按点击收费,每个点击几毛美金,一天的流水就有十几二十多亿美金。所以05年06年雅虎的搜索广告是如日中天,曝光量几十以乘将近100的数量,整个数据量是非常巨大的。

雅虎当时的云计算平台还没有出来,处理这么巨量的数据用到的引擎是Oracle,用过Oracle的都知道,它很笨重,尤其是处理大数据的时候。雅虎每天几十亿的点击量,成千亿的曝光量的时候,用Oracle非常受限。比如字段太宽不能存,或者有国际的字符不能处理,造成的后果是每天有几百万点击无法计算。这导致了很多的直接经济损失。

为了解决这个问题,内部的技术人员当时想了好多的方案。其中一个想法是外面的引擎都这么贵,我们有这么好的技术力量为什么不能把几千台计算机凑在一起打造出来一个比Oracle更好的平台来?这个就是当时Hadoop的起源。

正好05年的时候谷歌出版了一篇论文,这个论文提到了如何做分布式的模式,所以06年底的时候,雅虎出台了Hadoop。当然这是早期的Hadoop,功能解决的就是非常实际的基本计算问题。例如商家每天花多少钱,哪些区域花钱更多,下游联盟应该怎么分帐,以及字段的计算等等。

所以开头我想跟大家分享的是,海量数据其实很早以前就有,但是由于缺乏云计算的处理,大数据的价值没有发挥出来。

阿里巴巴B2B数据应用总监实例分析大数据同

Hadoop及其他同类计算引擎,就是这些云计算平台给这些大数据提供了一个计算平台,两者结合起来才能做AI,才能发挥出大数据的价值。

下面来谈谈阿里巴巴在大数据应用的一个发展方向。

1)大数据的第一步要沉淀大数据资产

沉淀大数据资产,一定要看什么是核心的数据,什么是核心的资产,什么数据将来可以做分析和应用。有时候我最怕听到我们业务同事说,我们要一站式打造个性化解决方案。要做一站式个性化解决方案就说明不能达到规模化、自动化。要牢记的是企业要做大就必须规模化、自动化来聚焦核心,全部依托于人工实现的话一定是会出问题的。

2)第二步是做分析决策并产品化

阿里巴巴不希望有很多分析师每天坐在办公室,以人肉手工但事实上的方式做分析。最佳的模式应该是以产品的形式固化分析,不需要浪费人工成本。

3)第三步是商业智能

商业智能的构建,就是说数据、产品、算法,这三个柱子要能结合起来,才能真正的影响到商业。做大数据处理需要的平台,第一层实际上是就是用Hadoop、SPARK等等平台,可以离线处理,做更精准的一些分析。然后可以做算法的模型、打造。

那么在某些业务场景中,Spark加上中间一层把这些分析的付诸行动是够了,但是在某些应用场景中是不够的,还需要最底下一层实时的计算。比如说安全层面,或者类似的一些站如果没有一个很完善的结构,那么遭受络攻击的时候,就不能得到及时地保护,所以某些业务场景一定需要最底层的。

我跟大家分享一个故事:

2006年我在雅虎的时候,我们的风控部门有差不多200人,其中有一百多人每天做的事情就是有顾客打进来说你们这个广告看起来是垃圾流量,这个做的不好是别人乱点的,或者爬虫的流量。然后这一百多人每天做的事情就是一个一个案例的看,是好是坏。

那个时候受限于没有云计算平台,只能把大数据拿出来将其中1%的流量放在单机上分析,可想而知做出的模型精准度会很有限。遗漏的部分只好人工分析。到了2008年,Hadoop技术发展成熟,雅虎的算法模型也已经成规模了。同年正好发生了经济危机,于是雅虎当时开始裁人。

有一天我到了一个原本有两百个人的楼层,由于裁人就只坐了三四十号人。我当时一方面感觉经济危机的残酷,一方面觉得雅虎的算法做的真不错,提高了风控的精确度,节省了好多人力成本。

所以这个故事也带来一个话题,人工智能一旦发展成熟之后,这些被取代的员工该怎么办?2008年经济危机的时候,我走进一个餐馆,以前要排队等很久的,但那一年几乎不怎么需要排队,非常惨淡。所以这个话题也可以留给大家思考一下。

最后我来谈谈阿里巴巴的B2B是怎样把大数据变现的。主要讲四个方面:

销售、风控、运营、产品。

核心思路就是通过围绕这四个方面不同的决策以大数据来产生商业价值。

销售,我们把很多数据搜集到之后,我们对潜在的客户做一些预测,对现那就苦了这条命了有的客户也做出预测。在做了预测之后销售业绩整体上会有很大的提高。比如说销售去打给客户的时候,转化率之前只有2%,现在能提高到6%。

风控,风控是比较敏感的话题,我就不细讲背后风控怎么做的了。粗略的说,除了线上的,还有线下的。我们把流程监控起来,知道哪些方面需要优化,哪些方面是很有效的。

运营,在阿里巴巴是很重要的一个部门。云运营的同事用工具智能选品,在效果,流程上优化或者是选出商品的排序。投放等各个方面我们都能够做到自动化智能化,这样运营同事不仅仅是在搭这个活动效率上有很大提升,效果上也会有很大的提升。

产品,通过大数据来设计产品链路应该怎么样转化,用户到了首页通过下一页应该看什么。然后通过大数据来判断设计是否合理,转化率是不是合理,哪里有可能存在问题可以优化,通过这样来帮助我们产品经理,搭出链路,做一些分析。

在现在这个大数据时代,每天流量在几十亿几百亿的时代,我们能做到的就是把数据规模化,固化一些产品的形式来取代一些人工的分析工作,从而让这些海量数据能够得到更精确的表达,让价值最大化。这就是我想要分享给大家的,谢谢。

南京化妆品
氨气的催化氧化报价
批发户外用品报价

相关推荐