Gate 广场创作者新春激励正式开启,发帖解锁 $60,000 豪华奖池
如何参与:
报名活动表单:https://www.gate.com/questionnaire/7315
使用广场任意发帖小工具,搭配文字发布内容即可
丰厚奖励一览:
发帖即可可瓜分 $25,000 奖池
10 位幸运用户:获得 1 GT + Gate 鸭舌帽
Top 发帖奖励:发帖与互动越多,排名越高,赢取 Gate 新年周边、Gate 双肩包等好礼
新手专属福利:首帖即得 $50 奖励,继续发帖还能瓜分 $10,000 新手奖池
活动时间:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
详情:https://www.gate.com/announcements/article/49112
系统性揭示 KI-幻觉:为什么传统测试方法会失败
语言模型是说服大师——即使它们在撒谎。一个AI代理可以声称自己创建了从未存在过的数据库条目,或者坚称自己执行了从未启动过的操作。对于生产团队来说,区分真正的错误和虚构的结果至关重要。这不仅影响故障排除,还关系到用户对系统的信任。
核心挑战:如何可靠地识别模型不仅失败了,还在主动构造信息?专注于AI系统测试的软件开发者Dmytro Kyiashko多年来一直在思考这个问题。他的研究表明,问题比最初想象的更为深层。
根本区别:错误与虚构
传统软件错误遵循可预见的模式。损坏的功能会返回错误。配置错误的API会提供HTTP状态码和有意义的错误信息。系统会提示出错了。
语言模型的失败方式不同——而且更具欺骗性。它们从不承认自己不知道。相反,它们会为未完成的任务提供听起来合理的回答。它们描述从未发生过的数据库查询。它们确认执行了只存在于训练数据中的操作。
“每个AI代理都按照工程师预先设定的指令工作,”Kyiashko解释道。“我们确切知道我们的代理具备哪些能力,哪些不具备。”这种认知是区分的基础:如果一个为数据库查询训练的代理默默失败,那就是错误;但如果它在未触及数据库的情况下返回详细的查询结果,那就是虚假——模型基于统计模式虚构了合理的输出。
行之有效的验证策略
核心原则:对系统的基本真理进行验证。Kyiashko使用多种测试方法来揭示AI虚假现象。
带访问控制的负面测试:没有数据库写入权限的代理被特意要求创建新数据集。测试随后检查两件事:第一,没有未授权的数据出现在系统中;第二,代理没有错误地确认成功。
以真实世界数据作为测试用例:最有效的方法是利用真实的客户对话。“我将对话转换为JSON格式,并用它进行测试,”Kyiashko说。每次交互都成为一个测试用例,用于分析代理是否提出了与系统日志相矛盾的断言。这种方法捕捉到边界情况,模拟测试难以覆盖——因为真实用户会创造出开发者无法预料的条件。
两层互补的评估:
基于代码的评估器进行客观检查。它们验证解析结构、JSON有效性、SQL语法——所有可以二进制验证的内容。
LLM作为评判者的评估器在细节很重要时使用:语气是否得当?总结是否准确?回答是否有帮助?Kyiashko使用LangGraph进行此类评估。高效的测试框架会同时使用这两种方法,因为单一方法都无法完全解决问题。
为什么传统QA能力无法迁移
经验丰富的质量工程师在测试AI系统时会遇到瓶颈。传统软件质量保证中的假设无法一一迁移。
“在传统QA中,我们知道确切的输出格式、输入和输出数据的结构,”Kyiashko说。“而在测试AI系统时,没有这样的保证。”输入值是提示(Prompt),用户表达请求的方式变化无限。
这要求根本性的范式转变:持续的错误分析。这意味着要定期监控代理对真实用户请求的反应,识别它们虚构信息的环节,并不断更新测试套件。
这个挑战还被指令数量的庞大所放大。现代AI系统需要大量提示,定义行为、边界和上下文规则。每个指令都可能与其他指令产生意外交互。“最大的问题之一是需要不断更新和重新测试的庞大指令集,”Kyiashko指出。
知识差距巨大。大多数工程师缺乏对合适指标、有效数据集准备或验证不同输出的可靠方法的系统理解。
隐藏的真相:测试比开发更昂贵
这里有一个令人不舒服的事实:“开发一个AI代理并不难,”Kyiashko观察到。“真正的挑战在于测试这个代理的自动化。”
根据他的经验,花在测试和优化AI系统上的时间远远多于其开发时间。这一现实需要在人员配置和资源分配上进行重新思考。
从概念到实践:可靠的发布周期
虚假信息比传统错误更快破坏信任。一个功能性错误会让用户感到沮丧。而一个自信地提供错误信息的代理会持续破坏信誉。
通过Kyiashko的测试方法,可以实现每周的可靠发布。自动验证在发布前捕捉回归问题。用真实数据训练的系统大多能正确处理大部分客户请求。每周迭代带来快速改进:新功能、优化回答、扩展领域——所有都经过控制和验证。
行业的必然趋势
全球已充分认识到生成式AI的潜力。没有回头路。每天都有创业公司以AI为核心。成熟企业将智能融入其核心产品。
“今天,我们必须理解语言模型的工作原理、AI代理的构建、测试方法以及如何实现自动化验证,”Kyiashko说。Prompt Engineering正成为质量工程师的基本技能。数据测试和动态数据验证紧随其后。这些技能应已成为测试工程师的标准能力。
从行业中的技术论文、创业公司评估和技术论坛观察到的模式清晰:全球团队面临相同的问题。几年前,验证挑战只由生产环境中的先驱解决,现在已成为普遍关注的问题,随着AI的规模化应用不断扩大。
多元化的测试框架
Kyiashko的方法涵盖评估原则、多轮对话和不同错误类型的指标。核心思想:多样化。
代码级验证捕捉结构性错误。LLM作为评判者的评估衡量效果和准确性,依赖模型版本。人工错误分析识别自动测试遗漏的模式。RAG(检索增强生成)测试检查代理是否利用了提供的上下文或虚构细节。
“我们的框架基于一种多元化的AI系统测试方法——结合代码覆盖、LLM评判、人工错误分析和检索增强生成的评估,”Kyiashko解释道。多种验证方法协同工作,能捕捉单一方法难以识别的虚假类型。
下一步展望
该领域正在实时制定最佳实践。越来越多的企业采用生成式AI。更多模型实现自主决策。系统越强大,它们的虚假信息就越具有迷惑性。
这并非悲观的理由。系统化测试可以在虚假信息到达用户之前识别出来。目标不是完美——模型总会遇到边界情况。关键在于系统性地捕捉虚假信息,防止其进入生产。
只要正确应用,这些技术就能奏效。缺少的是对其在生产环境中实现的广泛理解,尤其是在可靠性至关重要的场景。
Dmytro Kyiashko是专注于AI系统测试的测试软件开发者,拥有构建对话式AI和自主代理测试框架的经验,以及在多模态AI系统的可靠性和验证挑战方面的专业知识。