马萨诸塞州州长德瓦尔帕特里克(Deval Patrick)与来自技术公司、风险投资公司和研究所的一大批领导人最近宣布了一项联合计划,打算将马萨诸塞州打造成一个提供数据科学就业机会的中心。 这项计划是很有意义的。
三十五年前,计算机科学还没有成为一个学术性学科。现在,它已经成为全球性的学科了。 在技术行业最热门的专业术语Big Data的推动下,数据科学将在未来几年内成为新的热门学科。
Big Data指的是数据量大幅增长,超过了传统信息技术在存储、管理、分析和收集等方面的能力。
据市场研究公司IDC称,2000年全球产生的所有新信息总计达到200万TB。现在,数字世界每天产生的新数据都超过400万TB。
推动数据泛滥的是已经深入到人们日常生活之中的各种技术和应用:移动感应器、智能手机和社交网。
一款在消费者家中每15分钟智能检测一次数据的智能电表产生的用电信息比每月检测一次数据的传统电表产生的信息高出3000倍。将这个倍数乘以社区内的用电客户总数,就可以得出智能电网实时监控电力需求和预测故障所需的大量数据。
直到最近,存储、访问和分析海量数据的成本还是很高,只有政府和一些企业能够承受。执法机关已经找到一些新的方法来利用集中的数字化数据库进行指纹比对和弹道比对。 反恐怖机构和博彩行业已经采用面部识别技术来识别恶徒,在他们踏上飞机或走进赌场之前就把他们认出来。
Big Data的实时分析几乎可以应用于任何行业的任何商业模式。例如,排列某人基因组的成本已经由2001年的1亿美元下降到现在的不足1万美元,让普通民众也能享受到个性化医疗服务。
在线零售商可以通过对数十亿项交易进行分析,从而为特定消费者提供购物建议。不久之后,你的智能手机上的位置信息就会与你的信用卡上的购物记录对应起来,那样超市就能在你走进超市的时候为你提供个性化数字购物券。
众包(Crowd sourcing)已经为消费者智能手机上的GPS系统生成足够多的交通数据,在堵车时为消费者提供其他路线的建议。机器学习可以为信息交换提供更大的精确性。
为了加快数据科学提供就业机会的速度,马萨诸塞州政府宣布为Big Data工程所拨的专款将由公私联营提供,为麻省理工大学的技术研究和Big Data实习程序模型提供研究基金,并为波士顿的一个创新的非营利性社区提供支持。许多数据科学家聚集在波士顿的创新社区,共享基础设施和专业技术。
这是该领域的创新时代。上个月,EMC召开了第二次年度峰会,来自政府部门、学术界、生物科学领域、零售、营销和其他领域的大量数据科学家参加了大会。
哈佛大学医学院的约翰布朗斯坦(John Brownstein)在峰会上介绍了他与其他人联合研发的在线创新healthmap.org,他们打算将这个网站打造成预测传染病爆发的专业网站,利用众包提供传染病爆发的全局视图,可以比疾控中心或联合国的预测提早两周左右的时间。
他谈到中国的Sars爆发是由一位股民在研究某中药销售公司的股票走势图时最先发现的,H1N1病毒的爆发是由墨西哥维拉克鲁斯州的一家地方电视台 最先播报的。移动应用OutbreaksNearMe将为报告信息的用户提供反馈信息,为匿名输入个人健康信息的用户提供奖励。 以前需要花几个月的时间才能通过各级公共卫生组织层层传递到公众手中的信息现在只需几周的时间就可以让公众获悉了。
企业家特拉克卡米尔(Tarek Kamil)谈到,一个篮球中的6000个感应器可以识别出人看不到的遥测数据,它能将分析所需的数据发送出去,为改善钻机技术提供帮助。企业顾问皮严卡贾殷(Piyanka Jain)称,利用Big Data的快速分析可以发现客户关系中的弱点,帮助企业改善客户忠实度和提高收益。
然而,利用Big Data需要新的技术架构和算法,这超出了常规数据库管理和商业情报的范畴。最新的信息不会来自管理员管理的传统办公室数据库中的交易数据。 80%的新信息是在企业数据中心以外产生出来的。传统数据库不能满足数据库成百上千倍增长的需求。
数据科学也要求不断有新的科学人才的加入。 生命科学领域的一位教授可能为进行药品研究的某家医药公司管理着大量的信息。这些人懂业务,具备专业知识,了解最新的技术工具,同时也愿意帮助一家组织去识别预测性或不规则的药物组合。 他们掌握的技能非常宝贵,而且并不多见。
来自哥伦比亚、斯坦福和UC伯克莱的许多学术界人士上个月在峰会上称,数据科学在5年前还未成为一门课程。教授这门科学需要用到多种技能,大多数大学还不能用多种技能的方法来授课。 马萨诸塞州宣布了许多与此类似的合作,这必将改变那种状况。
数据是一门新的科学。答案就在Big Data之中,你能问出正确的问题吗? |