「未来速度」日前完成数百万美元天使轮融资,由耀途资本独家投资,融资资金将用于产品研发、用户体验改善和云平台搭建。
未来速度成立于2022年,旗下产品Xorbits为分布式数据科学计算框架,旨在加速Python生态下大规模数据的处理。团队主要来自阿里、华为、微软等企业,在大数据及Python领域经验丰富。创始人秦续业毕业于上海交通大学,曾在阿里云长期负责Python数据和AI领域工作,主导并开源Mars开源项目。
Python作为一门容易上手的编程语言,具有较高的开发效率,同时有Pandas、Numpy等丰富的第三方库帮助简化操作,是大数据及AI领域的标准语言之一。然而,在金融量化分析、生物基因测序、地理空间多维度分析等实际应用中,Python却可能面临运行效率较低、单机运行第三方库时内存不足等诸多挑战。
对此,Xorbits运用多核、异构、分布式等技术,加速执行已有代码,提高程序运行效率,能够覆盖科学计算、数据科学和机器学习等维度。同时,Xorbits还可兼容Pandas、Numpy等现有的Python数据科学库,用户无需学习新接口即可完成代码迁移,获得并行加速效果。
为了实现加速功能,Xorbits采用了分而治之的并行计算方式。具体来看,用户调用Xorbits函数时,Xorbits客户端将构建相应的计算图并提交至服务端,计算图将在服务端被处理成多个小的执行单元,再由调度器分发任务给worker执行处理。
目前已有的大数据或并行计算框架的调度方式一般更为粗放。为了避免算力浪费,Xorbits为细粒度调度引擎,能让任务细分与调度更加精细,如默认使用深度优先策略以尽早释放中间结果,减少计算使用的峰值内存等,目的在于以最优解进行调度。此外,Xorbits还进行了计算图动态列裁剪、图融合、支持迭代式tiling等优化工作。
相比国外Dask、Modin等计算框架,Xorbits在执行模式上也有其特色。计算框架执行模式主要分为立即执行与延迟执行两类。立即执行可在调用框架时立即计算,方便用户操作,但也压缩了性能优化的空间;延迟执行则意味着程序构建完成后,用户需要在一定节点手动调用函数等触发执行,拉高了使用门槛。而Xorbit采用了特殊的推迟执行方式,可以推断用户所需并自动将任务提交执行,尽可能减少用户操作,以此平衡计算框架的性能与易用性。
基于上述设计,在面对scale factor 100(约100GB数据集)和scale factor 1000(约1TB数据集)的基准测试中,Xorbits相比同类计算框架,运算速度能快3-7倍,且体现出更高的性能与API兼容性。
xorbits在性能上比竞争对手快7倍左右
在具体服务方面,Xorbits与多个云厂商展开合作,提供云上SaaS服务,用户改动相应代码即可进行云上运算提速。Xorbits会根据用户预算及诉求,衡量性能和性价比,为用户选择合适的方案。此外,由于Xorbits是开源平台,用户能够共同参与平台维护,并帮助平台进一步完善。
目前,Xorbits开源产品已正式发布,未来速度计划将进一步发展其开源社区,吸引更多用户共同建设平台,同时也将持续推进产品迭代,进一步简化操作。
耀途资本创始合伙人杨光表示,“数据科学和人工智能(DSML)的崛起背后,是Python工程师的崛起。Python native生态会在未来基础设施中扮演越来越重要的角色。Python数据分析、数据科学和机器学习,不应该仅仅停留在单机,我们看好Xorbits成为推动Python从单机走向分布式的关键力量。”