在当下,云已经成为分布式数据库最好的舞台。
“云所具备的资源池化、共享和复用的根本特点,让云上的数据库既能够进行事务处理和分析处理,又可以实现包括半结构化和非结构化数据在内的多模态数据的集大成。”4月20日,在第二届OceanBase开发者大会上,OceanBase首席科学家阳振坤围绕“云上的数据库”这一主题发表了一场演讲。
而在把云作为技术运行平台的发展趋势下,数据库本身也在不断地演进中。
在本次大会上,OceanBase发布了4.3版本,通过推出列式存储引擎、进一步强化TP/AP一体化,以及打造PB级实时分析数据库这三项核心技术升级,向“关键业务负载”的一体化战略迈出重要一步。
推出OceanBase 4.3版本,实现AP场景下的秒级实时分析
据OceanBase CTO杨传辉介绍,OceanBase 4.3版本的核心能力主要体现在以下三个方面。
首先,进一步强化TP/AP一体化。在KV场景下,相比于4.2.1版,OceanBase 4.3版本的性能迎来大幅提升,单行读写能力提升70%,批量读写能力提升80%至220%。在SQL日志优化上,提出包括增强优化器、降低日志传输带宽等在内的多项优化措施。发布租户克隆功能,能够在无需复制底层数据的前提下,用一个租户快速克隆出另外一个租户,新租户可以在原来的基础上进行增删查改。
其次,增强实时AP分析能力。OceanBase 4.3版本既支持旁路导入、外部表和列式存储,又支持行式存储与列式存储之间的动态转化,还支持许多常用于数据在线分析处理场景中的功能,包括物化视图、联邦查询计算的下压等。另外,OceanBase 4.3还在支持向量化引擎的同时,增强对半结构化数据的支持,并实现与主流流式数据库的兼容适配。
最后,实现AP性能的提升。相比于4.2.1版,OceanBase 4.3版本的TPCH和TPCDH性能分别提升25%和111%。同时,AP的兼容性也获得进一步提升,并通过AP参数模板和AP场景化文档来增强该版本的易用性。
(来源:资料图)
值得一提的是,在大会现场,OceanBase对其4.3版本进行跑分测试。结果显示,在同等硬件条件下,该产品的AP查询性能已经达到业内一流列存大宽表数据库的同一水平。
那么,为何要在OceanBase 4.3版本中增强实时AP分析能力呢?
“它其实是一体化产品战略的自然发展路径。”杨传辉表示。其中,需要说明的是,一体化是在融合TP、AP、多模态、AI等能力的基础上,用一套系统解决80%的问题。而在OceanBase 4.3版本中,该团队凭借新推出的列式存储、向量化引擎2.0版本等新技术,实现AP场景下的秒级实时分析。
另外,如果与业界其他的AP系统相比,该产品又具有哪些创新之处?
具体来说:
其一,相较于单纯的AP系统,将TP和AP的能力进行整合,在实时线路上具有明显优势。
其二,通过提升Mysql兼容能力、高可用能力和管控工具能力,能够帮助AP系统增加更实时、更易用和更高可用的特色。
显而易见,基于如上所述的能力提升,OceanBase 4.3版本有望吸引更多客户的使用。在这种情况下,OceanBase又该如何保证产品的稳定性?
对此,OceanBase产品部总经理&首席架构师杨志丰表示,会将OceanBase 4.3版本的研发和测试分为多线程并行,以保证产品在非常苛刻的使用场景下,不会因为迭代速度过快而增加风险。此外,杨传辉也指出,还会将新产品优先用于蚂蚁集团的核心业务,以更好地增强稳定性。
OceanBase 4.3版本的推出,似乎让OceanBase一体化数据库成为一款在任何工作负载下皆可使用的产品。但实际上,它真正适用的场景主要有以下五类。
其一,Express OLTP,即简单的读写并发量很高的场景。
其二,Complex OLTP,即以Orcal为代表的商业数据库适用的场景。
其三,BPKV、HBase等场景。
其四,在一套系统中既能进行在线事务处理,又能进行实时分析处理的HTAP场景。
其五,数据量更为庞大的实时AP场景。
制定“一体化”产品战略,帮助客户解决数据库实际应用中的复杂难题
据了解,自2010年迄今,OceanBase的演变过程已有十四年之久,一共经历两次重大技术架构升级和一次重大产品升级。
其中,2016年推出第一次技术升级,发布OceanBase 1.0版本,将此前OceanBase 0.5版本的单写多读架构升级为全分布式架构。2022年推出第二次技术升级,发布OceanBase4.0版本,提出单机分布式一体化架构,让产品不仅能用于大型企业,还能用于中小企业、乃至一些创业公司。在2023年下半年,提出一体化数据库,致力于在单机分布式一体化架构的基础上实现KV、多模、AI等多项能力的融合。
而OceanBase之所以制定“一体化”产品战略,是因为其发现客户在实际应用数据库的过程中,往往面临着业务规模增长、场景变多、IT架构渐趋复杂的难题,只有追求分布式架构下极致性能与最佳成本的一体化产品,才能有效地解决这些痛点。
目前,在一体化方面,OceanBase已经实现单机分布式一体化、TP/AP一体化、云上云下一体化和多模态一体化等。
如果从开发者角度来看,发展一体化又意味着什么呢?
首先,数据库选型是很多开发者遇到的首要难题,一体化架构可以帮助他们直接选择单机分布式一体化,避免在集中式与分布式之间进行选择的烦恼。
其次,融合SQL与NOSQL有利于推动多模融合,这不但能提供一种新的数据模型,还可以实现多种数据模型之间的优势互补。
对此,杨传辉举例道:“就拿HBase来说,它的写入接口对于开发者来说比较高效易用,但因为不支持SQL,所以在使用查询接口时比较麻烦。但当我们有了多模融合的OceanBase,就可以通过HBase兼容的方式将数据写入OceanBase,同时采取标准SQL的方式对OceanBase进行查询,这样就能很好地发挥SQL与NOSQL的双重技术优势。”
最后,把分布式TP能力直接融合到AP系统中,有利于开发出对开发者而言更加实时易用的新型数据库。
除此之外,在客户实际应用的过程中,OceanBase又是如何体现出自身所拥有的一体化能力呢?
杨志丰表示:“我们包括开源用户和云上用户在内的很多客户,都是把几个数据库换成一个OceanBase,这就是后者一体化能力的直接体现。”
开源社区已有1000多篇技术文章,核心仓库拥有300多位外部贡献者
对于开发者而言,一款产品开源与否是他们非常关心的一点。2021年6月1日,OceanBase 宣布正式开源。
杨传辉表示:“虽然当时业界已经存在一个广为流行的原生分布式数据库,但我们认为OceanBase作为一款在蚂蚁集团应用十几年、并且能够支撑每年双十一所有核心业务场景的产品,具有十分优异的性能和稳定性。如果开源这样一款产品,一定可以得到用户和开发者的喜欢,这就是我们的开源初心。”
他希望开源出去的产品,能够真正地解决用户的核心痛点。基于此,在过去一年中,该团队投入大量精力来帮助开发者提升OceanBase的易用性。例如,降低使用门槛,让产品的安装部署变得更加容易;进一步提升诊断能力,帮助开发者快速判断涉及基础原理的问题原因。
“在我看来,做开源不只是将开源产品或技术分享给开发者使用,更关键的一点在于成立开源社区,让开发者们通过开源产品实现更深层次的连接。”杨传辉指出。
而经过不断地建设和发展,OceanBase的开源社区目前已经从及时响应升级为社区互动。其中,有超过118位开发者开通博客累计分享了1000篇技术文章,核心仓库拥有300多位外部贡献者,共建代码量超过5万行。另外,生态共建氛围更加活跃,多家公司都在基于OceanBase内核共建生态工具,这与此前的发展状态有着本质区别。
另外,在本次大会上,多位嘉宾也针对国产数据库的发展提出了自己的观点。他们发现,以OceanBase为代表的国产数据库,正展现出几个显著趋势。
第一,关系型是数据库融合发展的底座。“基于SQL的关系型数据库,毋庸置疑是未来处理各行业及各类场景中的基本数据的长期使用方式。”Gartner高级研究总监顾星宇表示。
第二,大模型的火热发展对整个数据库领域提出了许多新需求。“此时,在线离线一体化、向量数据库和关系数据库的一体化,以及数据处理与AI的计算一体化,成为很重要的发展趋势。”清华大学教授、蚂蚁技术研究院院长陈文光表示。
第三,国产数据库的发展正处于逐渐收敛的过程。“在这方面,OceanBase的感受是,有越来越多数据库上下游的生态合作伙伴在主动与我们接触,希望能利用OceanBase做适配以及互相认证。”杨志丰表示。
基于此,在此次发布OceanBase4.3版本的基础上,OceanBase顺应上述发展趋势,围绕一体化方向宣布了多个后续计划。
比如,未来将支持全文索引,在数据库中加强对搜索能力的支持;也将支持向量数据库,便于开发者借助OceanBase开发大模型应用;还将实现基于S3的存算分离能力,大幅提升产品性价比,以更好地赋能开发者。