Hadoop教程:Hadoop和大数据在电信业里的典型应用
2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行。来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。
大会现场来自联通研究院移动互联网产品开发事业部主任王志军,为大家介绍了Hadoop和大数据在行业里的典型应用。
王主任主要从四个方面介绍了大数据的应用:第一方面源起,第二、电信运营商有哪些大数据,第三、中国联通建成的正在投入使用的大数据业务系统,第四、大数据应用的展望举几个简单的例子。
一、源起
我们进入到移动互联网的时代,几乎每个人都有手机,现在在用手机的时候,更多的是个人的电脑,所做的工作除了做一些基本语音和短信的功能之外,绝大部分在手机上的工作是使用数据的流量,移动通讯从语音的时代跨越到数据的时代,运营商有很大的机会,同时运营商遇到了很多流量消费争议的问题。
目前流量消费争议已经跃升成为用户通讯服务投诉的首位。首先的问题是数据流量消费远不如语音消费清晰透明。语音消费的时候拨打一个电话,对方是谁,打了多长时间,这个时间是可以感知到的。运营商也可以语音通话的详单,如果是发短信,发了多少条短信大体是心中有数的。
流量消费首先是计费单位是KB,流量消费有一定的不确定性。刚才用手机刷了一下微博、用了一会儿微信,到底用了多少流量,他不知道到底如何进行计费。所以说很多用户基于这种了解,可能很多时候主观认为自己根本没有使用流量,或者是使用了比较小的流量,为什么有的时候会产生比较高额的流量的花费,这时用户运营商来告诉我,这个流量用到哪去了?上了什么网址、用了什么应用产生了什么流量,而不是简单说这个月用了1G或者是700兆的流量,传统的方式已经不满足现在用户的需要了。
现在3G客户数据流量争议占3G业务投诉是10%,现在整个比例是在逐渐的上升。个别的省份已经达到了20%的比例。目前中国联通每月打到10010客服流量上的投诉是近万起。同时很多用户也基于运营商无法提供上网记录的详单,提出了法律的诉讼。例如某iphone合约计划的用户,他是晚上凌晨到四点睡觉期间发生了巨额的流量,智能手机可能语音的应用、有很多自动更新的应用,这些应用并不是使用了才产生流量,这种情况下用户难以理解。运营商的计量设备无法提供了详单就提出了诉讼。运营商的计量设备就相当于家里的水表,现在是区分不出来做饭、冲马桶、洗衣服用了多少水。如果是给用户提供详单,我们就需要做准确的计量设备做流量的区分。
原来运营商如何提供详单的,主要是产生于网页设备,GGSN,之前产生话单的方式流量累计到一定的限度,或者是达到一定的时长,或者是现在已经把网络关闭掉了,这时候才是产生流量的话单,这主要是运营商做计费用的,不是给用户来去说明情况的。里面包含的信息可能有手机号码、上页流量是多少,下页流量是多少,或有话单的持续时长,但是不包含网址的信息和访问记录的信息。
这种情况下,中国联通的移动业务,此前有个客服部门的统计数据,每万元应收收入中因无法提供上网记录详单的数据,造成的投诉和退费赔付是60块钱。GGSN不光是中国联通在用,来自爱立信、华为、中兴、诺基亚都在使用,这种成熟的设备,出现偏差的概率是很小了,绝大部分的赔付是运营商说不清楚,用户有投诉,为了避免争议扩大化,运营商是采用了赔付与和解的方式来处理。
由此可见提供用户上网记录详单,成为了互联网透明健康环境的关键的因素,这是运营商希望能够做到的事情。
上网记录是典型的大数据
例如,每个用户,可能每月的通话记录是几百、几千条,上网的记录绝对不是这个数量级,可能是几万,用的量大可能是几十万条上网数据。例如用手机访问新浪网的彩票走势图大致是产生20多条记录,包括手机发起,DS的查询,包括网页中每个元素的下载,其实对网络来说都是独立的请求这样都会产生一条记录。如果用IPAD,新浪网的彩票走势图会产生40条记录,如果看了IPAD里的新闻,过来会产生180条记录。
例如说访问淘宝的触摸平板也会产生6条记录,此外还有大量后台推送的消息,相当于是苹果的手机有很多通知的服务,例如说微信,很多的通知的服务业在悄悄的进行。
经过统计,中国联通用户上网记录每个月是超过了两万亿条,并且还在增长。数据量是全国目前运营商所有类型的计费话单的30倍以上,包括语音详单、短信详单、采信详单以及包括此前运营商给的流量记录详单,所有的数据量的30倍以上。
移动互联网是快速的发展期,大约每8个月流量会翻一番,今年年底4G的牌照会发放,在LTE的时代,用户的流量的消费会越来越大,现在是两万亿,明年这个时候是五万亿条,之后也许是八万亿条,数据很巨大。
上网数据是个典型的大数据
采用什么方式进行存储和检索呢是个大问题,此前运营商采用的架构方式是IUE的架构,用IBM小型机,用商用的关系型数据库,用高可靠性的EMC的存储,构建无论是计费系统还是帐户系统,很多的系统都是这样方式构建的这个很昂贵,但是它解决不了我们的问题。存储这么大规模量的数据,以后超越了可管理容量的上线。在做查询的时候,关系型数据库对大规模操作的时候性能是严重下降的。
数据量达到500G延时可能是三千秒,意味着两万亿条记录的数据,分期、分表存下来,达到500G用户有个查询的请求意味着一个小时才能给用户响应,即使做过优化查询的速度也是半个小时以上,审核公司也做过实验,经常一个查询是几个小时才能查询到用户的详单。
我们面临的问题是数据快速的写入,每月有两万亿条记录,每天有超过七百亿条记录,这么大的数据量如何快速的存储下来,那面记录在源源不断的生成,我们必须保持足够的速度记录下来,第二我们的数据如何快速检索提供给用户,在什么时候上了什么网址用了多少流量。上网记录的数据本身是个高价值的数据,它是目前为止可能是用户在移动互联网行为上的一个最基础、最原始的数据,这个数据如何进行高效的分析和挖掘。这么大的数据量,如何来进行低成本的存储,都是当时面临的问题。
Hadoop可以帮助我们解决这些问题
Hadoop采用开源的方式,构架了普通的PC服务器之上,抛弃了高端的存储,也可以保证高可靠性,适合数据快速的写入,以及有快速检索的方式,这样相当于有十亿的业务需求解决不了问题,Hadoop帮我们解决了,这是我们跟Hadoop脱离了实验室的概念,是真正的商用系统上第一次亲密接触。