thepixely

我们需要构建一个前端界面，用于实时可视化一个复杂的生成式AI管道——具体来说，是一个检索增强生成（RAG）工作流。数据以流的形式不断推送到前端，每个工作流“运行实例”包含多个阶段：查询分析、文档块检索、重排序（Reranking）、上下文压

2023-11-15 前端架构

产品需求将我们的数据架构推到了一个临界点。原有的推荐系统，其核心的相似内容搜索功能依赖一个每晚通过批处理作业更新的向量索引。对于一个期望即时反馈的用户体验而言，长达24小时的数据延迟是完全无法接受的。用户的任何内容更新，比如修改一篇博客、更

2023-11-15 数据工程

定义复杂技术问题在一个典型的成熟企业中，Polyrepo 是常态而非例外。技术栈的演进留下了不同时代的服务：一个稳定的 Java 服务使用 MyBatis 固守着核心的关系型数据库；一个用于数据科学和AI推理的 Python 集群利用 Ra

2023-10-27 分布式架构

在维护一个快速迭代的移动端应用时，一个持续存在的痛点是发布说明（Release Notes）的撰写。它往往是手动的、滞后的，并且质量参差不齐，无法准确反映两次发布之间的真正变更价值。单纯依赖git log生成的内容对非技术用户毫无意义。我们

2023-10-27 系统架构

模型在生产环境中的表现衰退，往往不是算法问题，而是数据问题。我们最初的MLOps平台在这一点上是个黑盒。特征计算和注入TiDB的流程看起来运转正常，但当线上欺诈检测模型的准确率开始无预警下滑时，我们才意识到，我们对“数据”本身的状态一无所知

2023-10-27 MLOps

团队内部的数据湖规模正在失控。最初只是几个核心业务线的 Parquet 文件集合，现在已经膨胀成一个包含数百个数据集、每日TB级增量的复杂系统。问题随之而来：数据质量。我们不止一次地在下游分析任务中发现数据异常——空值、格式错误、超出业务范

2023-10-27 数据工程