站内公告:
2025-03-21 16:44:26 点击量:
开云体育- 开云体育官方网站- 开云体育APP 最新2025
泽拓科技的昆仑数据库是借力开源生态做成的。在赵伟看来,这是认清作为创业公司的资源处境时,做出更符合创业公司发展逻辑、对用户更有利的抉择。他形容自己在做的事是“炼丹”——“丹”的主体基于 MySQL 和 PostgreSQL 等开源社区的几个组件作为素材和原料,团队在这基础上增强其原有功能且增加新的功能组件,把这两个原本互不关联的开源单机数据库揉合为具有统一而协调的整体架构和产品功能集——泽拓昆仑数据库。
而建基开源之上的优势是,昆仑数据库能充分融合客户需要的功能:有段时间,社区里都在讲能同时做到 TP(事务处理) 和 AP(分析处理) 的 HTAP 功能,团队便进一步加强数据库的 AP 性能使其具备 HTAP 能力;后来大模型带火了向量数据管理需求,借助 pgvector 这个开源组件,泽拓团队用不到三个月就让昆仑数据库也拥有了向量数据处理能力。“昆仑数据库已有丰富的功能,且有开放可扩展的架构,因此社区关注什么,我们就能快速增加相应的功能”,昆仑数据库就这样成长为数据库的“集大成者”。
但要实现这一点,不可忽视的前提条件是:泽拓科技产品研发团队里有多位来自 Oracle 的 MySQL 原厂内核开发者。他们是赵伟之前在 Oracle 工作时的同事;而赵伟自己,在 Oracle 做过 多年 MySQL 内核研发后,也在腾讯把基于 MySQL 做的 TDSQL 迭代为成熟的分布式数据库产品。深耕 MySQL 和 PostgreSQL 开源生态多年,泽拓团队知道如何最高效高质地基于原有代码做深度研发,满足客户需求。
HTAP 这个名词是前几年其他厂商提出来的,但 Oracle 很多年前就已经支持 AP 查询了。不过 Oracle 是集中式数据库,到互联网时代,很多中小型公司也有几十 TB 的数据要分析,Oracle 也难以承载大量数据分析需求,所以业界从20多年前开始用 HBASE、 Hive 等去迭代,有了国内外多个 AP 类数据库产品。后来市场就发明出一些需求,也可能是真实的需求,把 TP 和 AP 的功能融合在一个产品里,也就是HTAP。
赵伟:可能有,但我们实际拜访那么多客户里,很多时候 TP 和 AP 负载还是分开在两个数据库实例中运行。大多数情况下,对于一个 HTAP 数据库,大家往往只侧重使用其 TP 或者 AP 的功能。这样避免两类负载的资源竞争,确保两者性能都更高;而且开源社区有很多免费的数仓产品,客户自己多用些机器就能独立部署 TP 和 AP 数据库。当时我们做 HTAP 也主要是从技术的角度看觉得可能有一些需求,也想通过深度研发一系列技术来大幅改进昆数据库的 AP 性能。现在看,技术和产品层面我们的目标基本实现了,而在用户使用场景方面,更多用户更倾向于把昆仑数据库作为 TP 数据库来直接支撑应用系统,或者从多个其他数据库汇聚数据。
赵伟:我们最本质的 PMF 就是企业级的 MySQL 和企业级的 PostgreSQL。昆仑数据库的计算节点是基于 PostgreSQL 开发的,存储节点是基于 MySQL 开发的,跟其他只支持 MySQL 协议和 SQL 语法的产品相比,对二者的兼容程度要高很多。DBA 的学习曲线也很平滑,他们原先对 MySQL 的运维管理的知识,有很多仍然适用于昆仑数据库。另外 PostgreSQL 近些年在国内外的普及度也在快速上升,昆仑数据库对 PostgreSQL 用户来说,在性能、弹性扩展能力等方面也具有独特价值。
赵伟:竞争力挺大,因为Oracle 现在对社区版 MySQL 投入已经大大降低,把研发 MySQL 的资源都投到云上闭源版本了。过去 15 年 Oracle 在社区版 MySQL 做大量投入,基本每个季度发布新版本,就像掉个新的“馅饼”给全球用户。但现在定期发布的开源 MySQL 新版本 已经几乎没有新功能,基本就是在修 bug,对于用户来说以后“天上掉馅饼”的机会就很少了。如果 MySQL 用户有新的功能需求,或者有需要解决的问题,我们就能在昆仑数据库里把这个功能做出来给他们。
赵伟:从用户视角来看,用户更看重其选择的数据库以及其他基础软件产品能解决其现实问题和需求,有功能需求时供应商能研发出来或者按需更改、遇到 bug 能即时有效地解决,这才是关键。他们反而不会很在意产品自研率是 100% 、80%还是 50%。我们从一开始就大大方方在社区里讲,我们基于社区版的 MySQL 和 PG 深度研发了大量内核增强、优化扩展和新功能组件,使二者发生“核聚变反应”, 锤炼成全新的产品。对计算机软件而言,比自研率更重要的是能 Hold 住自己产品的完整设计和实现,从而按需增强现有功能和扩展开发新功能。而且,要遵循所使用的开源组件的开源协议。因此我们不会为了所谓的自研率做任何隐瞒。
赵伟:当时就只是想着做分布式数据库,管理海量的数据,应对极致的负载。虽然产品的功能在持续开发,但有几个基本因素,是我们一直保持的。一是要从开源生态借力,因为创业公司资源有限,做事的效率要比大厂更高而且要更灵活地即时调整。我们把研发昆仑数据库称之为“炼丹”——“丹”的原料一部分是开源社区的组件(即MySQL和PostgreSQL),毕竟我们没有那么多资源从 0 写每行代码。第二是可以从 MySQL 和 PostgreSQL(PG) 的开源数据库社区用户群中发展用户,通过社区发展影响力,让大家知道我们的产品比开源免费版的价值,从而成为我们的商业客户。
赵伟:蛮多的,比如昆仑数据库比 OceanBase 和 TDSQL 多了向量数据管理、空间数据管理,比 TDSQL 的 AP 性能更高,等等。虽然这些差异化的部分功能,客户是否需要也因人而异,但我特别想强调一点,昆仑数据库的独特优势是对 MySQL 做深度兼容,因为昆仑数据库的存储节点基于 MySQL 研发而成,不仅仅是其他数据库产品那样仅兼容 MySQL 的协议语法,相当于MySQL 用户的 DBA 可以直接来运维管理昆仑数据库,上手难度很低。
赵伟:专用数据库也分多种,像图数据库和关系型数据库区别非常大,甚至可以说底层算法和理论相互冲突。以前 Oracle 试图做过 Oracle Graph,但似乎没有普及开来,因为用关系表存储图然后基于表连接实现图遍历,这样的效率太低了。另外,Redis 的纯内存数据库,其使用场景和需求以及运行的环境或条件也和关系型数据库完全不一样。所以这些专用数据库都有其特定的场景和用户群,与常见的关系数据库差异较大。向量数据是一种数据类型,可以嵌入关系型数据库里,我们在昆仑数据库中支持向量数据管理只用了不到 3 个月,因为昆仑数据库的基础能力可以支持包括向量数据在内的丰富的数据类型,我们仅需为实现向量数据的存储和计算能力即可。
赵伟:我感觉本质上可能没有两三百家数据库公司,真正活跃在社区里、官网上有产品介绍和产品发布的,可能也就五六十个产品。而且这其中,国内几个大厂的产品又占了接近一半。细分到每个产品类别和维度后,比如 TP 型、AP;关系、图、NoSQL、时序、JSON;内存、集中式、分布式等等,每个小分类里头的产品其实并不多。不过这些产品如果仅在国内发展,那么空间仍然会比较受限。我们对于未来的发展抱有谨慎乐观的态度,但认为国内各基础软件厂商要出海做全球的客户。
2020年前后,国产数据库创业大潮汹涌。然而,随着AI大模型的出现,人们视线的聚焦与资本的兴趣也发生转变。五年过去,国内的数据库公司现状如何?他们在做什么新的尝试?又遇到什么新的困难?本专题与一系列数据库创业公司的创始人对话,回顾近年数据库公司在商业和技术领域的探索。纵然面对数据库市场的寒冬,从业者们各有招数,怀揣着对数据库的理想与确信,走出各具特色的商业化之路。我们诚邀对此专题感兴趣的从业者共同参与讨论,或是作为受访对象分享您的真知灼见。欢迎添加微信 Ericazhao23。
Copyright © 2018-2025 农家乐美食民宿文化有限公司 版权所有 非商用版本
地址:广东省广州市电话:020-88889999手机:13988889999
ICP备案编号:
微信扫一扫