本篇文章3485字,读完约9分钟
中国大数据技术大会( bdtc )将于年12月12-14日在北京新云南皇冠假日酒店举行。 梳理了大会前期特别是历届大会的亮点记录了中国大数据技术行业快速发展的历史,立足于目前生态圈的现状对bdtc进行了展望。
集聚了hadoop中国云计算大会和csdn大数据技术大会精华之大成,历届中国大数据技术大会( bdtc )已经迅速发展成为国内事实领域的顶级技术盛会。 从2008年的60人hadoop沙龙到现在的数千人的技术盛宴,作为业内具有实战价值的专业交流平台,每次中国大数据技术大会都忠实描绘了大数据行业内的技术热点,沉淀了领域的实战经验,形成了大数据生态圈。
年12月12-14日,由中国计算机学会( ccf )主办,ccf大数据专家委员会主办,中国科学院计算与csdn共同合作的中国大数据技术大会( big data technology conference,bdtc )在北京新云南 大会历时三天,以推进大数据技术在领域应用中的快速发展为宗旨,提出了大数据基础设施、大数据生态系统、大数据技术、大数据应用、大数据互联网金融技术、智能新闻解决等多种主题形式 还将举办中国计算机学会主办、ccf大数据专家委员会主办、南京大学和复旦大学协办的年度第二届ccf大数据学术会议,并与技术大会共享主题报告。
这次大会邀请了约100名海外大数据技术行业的顶尖专家和一线实践者,介绍了hadoop、yarn、spark、tez、hbase、kafka、oceanbase等开源软件的最新进展,no Sean openstack生态系统对大数据计算诉求的思考,以及在大数据中的可视化、机器学习/深度学习、商业智能、数据观察等最新行业APP应用,共享实际生产系统中的技术特色和实践经验。
梳理了大会前期特别是历届大会的亮点记录了中国大数据技术行业快速发展的历史,并立足于目前生态圈的现状对即将召开的bdtc进行了展望。
这项跟踪揭示了大数据的六大技术变迁
随着大数据技术大会的迅速发展,我们经历了中国大数据技术和应用时代的到来,见证了整个大数据生态圈技术的飞速发展和衍生变化。
1 .计算资源的分散化从网格计算到云计算。 回顾过去的bdtc会议,可以看到从2009年开始,资源组织和调度方法从跨域的网格计算转移到了本地分布式的云计算。 目前,云计算已成为大数据资源保障的不二平台。
2 .数据存储的变更产生了hdfs、nosql。 随着数据风格的多样化,以前流传下来的关系存储已经不能满足新时期APP的诉求。 hdfs、nosql等新技术应运而生,成为当今众多大型APP架构中不可缺少的一环,推动了定制计算机/服务器的迅速发展,成为大数据生态系统中最热门的技术之一。
3 .计算模式改变hadoop计算框架,使之成为主流。 为了更好、更便宜地支持搜索服务,谷歌创建了地图/资源和gfs。 在谷歌论文的启发下,前雅虎工程师doug cutting创立了一个与高性能计算模式大不相同的、计算接近数据的hadoop软件生态系统。 hadoop天生高贵,现在已成为apache基金会最热门的开源项目,被誉为大数据解决的事实标准。 hadoop以低廉的价格在分布式环境中提供了大量数据的解决能力。 因此,hadoop技术的探讨和实践共享也是历届中国大数据技术大会最光明的特色之一。
4 .流媒体计算技术引入满足应用的低延迟数据解决诉求。 随着业务诉求的扩大,大数据正在脱离离线批量解决的范围,storm、kafka等通过充分发挥实时性、可扩展性、容错性、灵活性的流媒体框架,实现了传统的消息中间件 成为了历代bdtc明亮的风景。
5 .内存计算才刚刚开始,spark就敢和老手战斗。 spark源于美国加州大学伯克利分校amplab的集群计算平台,立足于内存计算,从多代批量解决到数据仓库、流解决、图形计算等众多 短短四年内,spark迅速发展成为apache软件基金会的顶级项目,拥有30个committers,其客户包括ibm、amazon和yahoo! 、sohu、百度、阿里、腾讯等多家知名企业还包括spark sql、spark streaming、mllib、graphx等多个相关项目。 毫无疑问,spark站稳了。
6 .关系数据库技术的发展newsql改写数据库的历史。 关系数据库系统的开发没有停止,在横向扩展、高可用性、高性能方面也取得了进步。 实际的APP是对面向在线分解解决( olap )的mpp(massivelyparallelprocessing )数据库的最迫切诉求,包括多拷贝技术、列存储技术等。 MPP数据库学习和使用大数据行业的新技术。 另一方面,面向在线交易解决( oltp )的数据库正在以高吞吐量、低延迟为目标高性能地发展,技术的迅速发展趋势有全内存化、无锁定化等。
扬帆,看大数据生态圈的快速发展
时光飞逝,转眼中国大数据技术大会如期召开。 在技术日新月异的今天,年的bdtc中蕴含着什么? 在这里,让我们关注一下当前技术的快速发展趋势。
1. mapreduce能否衰退,yarn/tez能否再次辉煌? 对hadoop来说,这是emc、微软、英特尔、teradata、cisco等多家大型企业增加了对hadoop的投资,是可喜的一年。 但是,对许多组织来说,这一年并不简单。 基于mapreduce的实时短板和组织对更常见的大数据解决平台的诉求,hadoop 2.0的变革至关重要。 那么,在变革中,组织将面临什么样的挑战呢? 如何更好地利用yarn的新特点呢? hadoop未来的快速发展会有什么样的巨大变化? 因此,bdtc是apache hadoop committer,apachehadoopprojectmanagementcommittee ( PMC )的成员的uma maheswara rao g, 邀请ApacheHadooopcommitteryiLli的Bikassaha ( PMC MEMB EROFTHEAPacheHadooPandtez )等国际顶级Hadoop专家,我们可以当面讨论。
2 .时光流逝,storm、kafka等流量计算框架没有前途。 如果说mapreduce的缓慢带来了乘坐许多流计算框架的机会,那么当hadoop生态圈的组件成熟,spark变得更容易使用时,这些流计算功能就会消失。 在这里,您可以根据bdtc近100次的实践共享来了解侧面,也可以与专家们面对面交流。
3. spark,是翻船还是补充? 由于与hadoop生态圈的兼容性,spark的迅速发展日新月异。 但是,根据最近sort benchmark公布的排名结果,在海量( 100tb )离线数据的排名中,相对于上届冠军hadoop,spark是不足十分之一的机器,只需要三分之一的时间就可以同步。 毫无疑问,目前spark不再局限于实时计算,而是以通用大数据解决平台为目标。 中止shark,打开spark sql,这可能才刚刚开始。 那么,随着spark成熟,本机支持离线计算,开源大数据标准解决平台这一荣誉将落到谁家呢? 在这里一起享受。
4 .基础设施层用什么来提高我们的互联网? 目前,互联网已成为许多大数据解决平台的攻防对象。 例如,spark为了克服互联网瓶颈,采用了新的基于netty的互联网模块代替了现有的nio互联网模块,从而提高了互联网带宽的利用。 那么,在基础设施层,该如何克服互联网这个瓶颈呢? 通过直接采用更高效的互联网设备(如infiniband ),您将获得多少性能提升? 通过建立更智能的互联网,并在计算的各个阶段、自适应地调整分割/整合阶段的数据传输要求,提高了速度和利用率。 在bdtc上,您将从infiniband/rdma技术、应用演讲以及一些sdn实战中获得宝贵的经验。
5 .数据挖掘灵魂的机器学习。 近年来,机器学习行业人才抢夺日趋白热化,谷歌、ibm、微软、百度、阿里、腾讯等机器学习行业的投资也越来越高,芯片设计、系统结构(异构计算)、软件系统、模型 大数据标志着新时代的到来,pb数据让人们抱在金山上,但缺少智能算法,机器学习这个灵魂、价值的提取无疑成了镜子。 在这次会议上,我们也同样准备了一些机器学习相关共享,期待大家的参与。
除技术共享外,还将举办年第二届ccf大数据学术会议,与技术大会共享主题报告。 届时,我们同样可以砍掉多项来自术业的最新科研成果。
标题:“中国大数据六大技术变迁记”
地址:http://www.laszt.com/lhxinwen/3339.html