thepixely
本站致力于IT相关技术的分享
构建基于 Pulsar CDC 与 Ktor 的 ChromaDB 实时向量同步服务 构建基于 Pulsar CDC 与 Ktor 的 ChromaDB 实时向量同步服务
产品需求将我们的数据架构推到了一个临界点。原有的推荐系统,其核心的相似内容搜索功能依赖一个每晚通过批处理作业更新的向量索引。对于一个期望即时反馈的用户体验而言,长达24小时的数据延迟是完全无法接受的。用户的任何内容更新,比如修改一篇博客、更
2023-11-15
构建数据湖的数据质量探针:结合 DuckDB、Tailwind CSS 与单元测试的实践复盘 构建数据湖的数据质量探针:结合 DuckDB、Tailwind CSS 与单元测试的实践复盘
团队内部的数据湖规模正在失控。最初只是几个核心业务线的 Parquet 文件集合,现在已经膨胀成一个包含数百个数据集、每日TB级增量的复杂系统。问题随之而来:数据质量。我们不止一次地在下游分析任务中发现数据异常——空值、格式错误、超出业务范
2023-10-27