在Curify构建自我改进的多模态搜索引擎,利用真实用户查询

传统搜索引擎是静态索引——它们等待世界来填充。在自主工作流和“氛围编码”的时代,构建搜索系统不应仅仅是优化BM25或向量嵌入;而应是构建一个自主循环,学习、决策并构建自己的供应。在Curify,我们最近将搜索栏从一个被动的检索工具转变为一个自我改进的多模态引擎。本文将深入探讨我们如何利用真实用户数据构建自主循环。
设置:动态供应链
要理解引擎,从库存开始。Curify并没有索引开放网络——设置是高度控制和确定性的:
内容引擎:数百个具有可修改参数的结构化视觉模板,直接连接到Gemini API以实现高保真图像生成。
信号:一个实时搜索产品,捕捉每日的真实用户查询。
优化目标很简单:最大化搜索结果的*丰富性*(供应/召回)和*精确性*。但我们不是手动调整权重,而是将实时用户查询转化为动态、持续的评估集。每个表现不佳的查询都成为训练信号——不是在梯度下降的意义上,而是在自主决策的意义上。管道会推理*为什么*查询失败,并引导到正确的修复。
评估 → 推理 → 行动循环
步骤1:捕捉真实查询(并模拟边缘案例)
在Curify上的每次搜索都捕捉查询及其即时结果:点击、下载或可怕的零结果页面。这为我们提供了一条真实信号流。
我们还注入*模拟*用户响应,以在真实用户遇到之前进行压力测试边缘案例——一个小型合成流量生成器,像LLM驱动的代理一样探测目录的边缘。真实查询揭示用户实际需要的内容;模拟查询揭示他们*将*需要的内容,基于我们预期的模式。两者都为同一评估管道提供数据。
步骤2:评估每个表现不佳的查询
任何产生低丰富性或低精确度的查询都会触发评估节点。评估者将真实参与信号(点击、停留时间、下载)与Gemini判断的相关性评分结合,对于那些返回结果但参与度模糊的查询。
评估者不仅仅记录错误。它提出自主问题:*这是供应问题,还是架构问题?* 这个分叉是循环的核心,决定接下来哪个行动路径被触发。
步骤3:决策分叉——生成内容(修复供应)
如果评估确定用户的意图是有效的(例如,“双语恐龙闪卡”),但数据库确实为空,系统就会作为自主创作者行动。
行动:它将查询参数路由到模板引擎,触发Gemini API,并批量生成缺失的视觉资产——与常规内容发布相同的模板驱动管道,现在由失败的搜索按需调用。
当下一个用户(或模拟代理)进行相同搜索时,库存已经自我修复。搜索引擎实际上构建了缺失的内容。
步骤4:决策分叉——改善架构(修复逻辑)
如果内容存在(“T-Rex教育海报”),但用户的查询(“侏罗纪学习材料”)未能显示它,系统会标记出架构缺口。
行动:这就是氛围编码发挥作用的地方。我们不是让开发者手动编写正则表达式规则,而是将失败的评估案例输入Claude Code,并提示它:
- 更新查询重写规则
- 生成新的别名扩展
- 精炼LLM意图路由提示
对搜索管道的架构调整在几分钟内完成,完全基于真实用户的摩擦点。工程师保持在循环中审查差异,但代理在真实案例中进行草拟,而不是对假设查询进行推测。
这取代了什么
循环取代的三种模式:
手动内容填补:传统搜索团队维护“低召回查询”的待办事项,并派发内容委托以填补空白。延迟是几周;许多查询从未被填补。自主循环在几小时内弥补了这一差距。
手写重写规则:搜索工程师为每个关键字编写别名或维护词干字典。必要但缓慢,随着新查询模式的出现,规则会漂移。氛围编码的重写与案例数量线性扩展,而不是工程师的工作时间。
静态评估集:相关性基准一次性编写并冻结。真实用户查询每周都会变化——静态评估集测量的是上个季度的现实。将实时查询视为评估集意味着系统针对用户本周实际搜索的内容进行优化。
Tools & Resources
Learn about the best tools available...
堆栈如何连接在一起
四个组件,由代理层连接:
搜索前端捕捉查询+参与信号,并在近实时中将其发送到评估者。
模板引擎是Curify的Nano Banana库——数百个参数化的视觉模板,供应侧分叉调用以生成缺失内容。驱动手动内容发布的同一引擎;循环成为另一个调用者。
Gemini API处理图像生成(供应侧)和相关性评分(评估侧)。单一模型家族,两个角色。
Claude Code处理架构侧更新——重写规则、别名扩展、意图路由提示。代理获得失败案例的上下文以及现有管道状态,返回差异,工程师审查,发布。
集成成本低于预期,因为模板引擎和搜索前端已经是独立系统。自主循环是我们已有工具之上的协调层——而不是重写——这就是为什么我们可以在几天内而不是几周内发布第一个版本。
搜索作为编排
搜索不再仅仅是检索和排名;它是一个编排问题。通过将真实用户查询视为不仅仅是指标,而是自主决策者的主动触发器,我们构建了一个积极对抗自身熵的系统。
在Curify,搜索引擎不再仅仅找到内容。如果内容缺失,它会创建。如果逻辑有缺陷,它会重写。供应侧和架构侧都从相同信号中改善——那些昨天未能工作的查询。
这就是下一代搜索系统的模型:不是更大的索引,而是更紧密的循环。
Take the next step
Putting what you read into practice.


