前言
互联网技术的迅猛发展,催化数据量呈现指数级增长,一座座数据金山堆积在我们面前。然而,从实际的角度考虑,大数据的一个关键特征就是数据量巨大、知识贫瘠。于是,当人们面对TB级别甚至PB级别的数据量时,再也无法通过人工手段对数据进行知识提取,此时数据挖掘技术大显身手。
数据挖掘是大数据中最关键和最有价值的工作。2016年12月,麦肯锡全球研究院(McKinsey Global Institution,MGI)发表了一份名为《分析的时代:在大数据的世界竞争(The Age of Analytics: Competing in a Data-Driven World)》的报告。该报告指出近年来数据量呈指数型增长,从而发展出更复杂的算法,计算机的存储能力也得到提升,随着技术日新月异的变化,商业模式也受到颠覆式的影响。
在这样的背景下,利用先进的数据挖掘技术,迎合各领域实际的需求痛点,才是和谐发展之道。大数据解决方案能够给企业带来巨大的资金效率和生产效率提升。IBM、谷歌、微软、阿里巴巴等IT巨头也将大数据描述成一种颠覆性的技术,其力量在将来足以影响和改变我们每一个人,甚至一个行业和一个国家。若想充分发挥大数据的巨大潜力,数据的产生和收集是基本,数据挖掘(知识发现)是工具和手段,是大数据应用中最关键和最有价值的工作。
作者长期从事数据挖掘研究和教学工作,经历了从最初数据挖掘基础研究的兴起到如今数据挖掘应用百花齐放这样一个时代的变迁,深刻体会到研究和应用两者间不可分割的联系:数据挖掘研究源于实践中的实际应用需求,以具体的应用数据为驱动,以方法、工具和系统为支撑,最终将发现的知识和信息运用到实践中,从而提供量化的、合理的、可行的、能够产生巨大价值的信息。
大数据挖掘技术提供智能决策依据,在技术进步和人类生活的方方面面大显身手。本书针对大数据挖掘技术的不同应用场景,分别介绍了大数据技术在系统日志和事件的挖掘、工作票数据挖掘、大数据与计算可持续性研究、推荐系统、隐私保护等方面的应用。
本书既通俗易懂,又比较全面,融入了最新前沿技术和应用,适合不同背景的读者阅读,也欢迎各大高校的师生把此书作为数据挖掘和机器学习课堂的实践教材和参考书籍。