news 2026/6/22 2:26:44

拜耳与思特沃克合作,PRINCE平台提升制药临床前数据检索效率

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
拜耳与思特沃克合作,PRINCE平台提升制药临床前数据检索效率

导航链接

包含多个导航链接,如 [Refactoring](https://refactoring.com)、[Agile](/agile.html)、[Architecture](/architecture) 等。

主题

涵盖架构、重构、敏捷开发、交付、微服务、数据、测试、领域特定语言等主题。

关于我

包含关于、书籍、常见问题解答等相关内容。

内容

有视频、内容索引、片段、棋盘游戏、摄影等内容。

思特沃克(Thoughtworks)

包含主页、洞察、职业发展、技术雷达、工程实践等相关链接。

关注

可通过 RSS、Mastodon、领英、Bluesky、X、BGG 等渠道关注。

目录

包含顶部、挑战:穿越临床前数据迷宫、解决方案:PRINCE——一个进化型平台等内容。

构建可靠的智能 AI 系统

本文介绍了临床前信息中心(PRINCE),它是拜耳(Bayer AG)与思特沃克合作开发的基于云的平台,旨在解决制药行业药物开发挑战。PRINCE 利用智能检索增强生成和文本转 SQL 技术,整合数十年安全研究报告,从基于关键词搜索系统演变为智能研究助手。从上下文工程和控制工程角度反思关键工程决策,通过透明度、可解释性和人机协作建立用户信任,展示了人工智能在制药领域变革潜力,提高数据可访问性和研究效率,确保治理和合规性。2026 年 6 月 16 日。

作者信息

Sarang Kulkarni 是思特沃克首席顾问,专注软件工程、数据平台和应用人工智能交叉领域,致力于构建生产级生成式人工智能系统,为思特沃克全球人工智能服务开发团队做贡献,还教授相关课程。

内容

再次罗列挑战、解决方案、系统架构等相关内容。

临床前研究现状与机遇

临床前药物发现复杂且数据密集,研究人员面临有效访问和分析大量信息挑战,传统基于关键词搜索方法力不从心。大语言模型出现带来机遇,检索增强生成技术有望改变临床前数据访问方式。拜耳认识到潜力并探索利用这些技术解决临床前研究挑战。本文分享拜耳早期对生成式人工智能投资催生 PRINCE 的历程,探讨技术架构、工程决策和经验教训。还介绍了上下文工程和控制工程,以及发表在 [《人工智能前沿》](https://www.frontiersin.org/journals/artificial-intelligence/articles/10.3389/frai.2025.1636809/full) 上的论文更详细介绍产品演变和业务影响。

挑战:穿越临床前数据迷宫

拜耳临床前研究领域数据丰富多样,包括结构化数据集和非结构化信息。研究人员面临数据孤岛、搜索能力有限、手动分析耗时等障碍,凸显对更高效、智能和集成的临床前数据检索与分析方法的迫切需求。

解决方案:PRINCE——一个进化型平台

为解决挑战,拜耳开发 PRINCE 平台,最初是临床前数据统一入口,整合结构化研究元数据。但大量有价值的临床前知识在非结构化 PDF 研究报告中,生成式人工智能特别是 RAG 的出现解锁了这些数据。PRINCE 经历搜索、问答、执行三个阶段,从搜索到问答再到执行的演变是对行业需求的战略回应,旨在实现更快数据驱动决策,加速疗法开发。

系统架构:构建可靠的智能检索增强生成(RAG)系统

系统作为交互式对话式用户界面运行,由强大后端基础设施支持。架构通过 _LangGraph_ 编排,_FastAPI_ 应用程序提供服务。介绍了系统上下文和支持平台,包括用户请求、编排、数据检索和状态管理、利用内部生成式人工智能平台、弹性和错误处理、可观测性和评估、最终响应等环节。还强调了上下文管理原则,不同阶段接收不同上下文,减少上下文污染。

智能 RAG 系统

PRINCE 集成智能 RAG 系统,使用 _LangGraph_ 实现,编排工作流,利用研究代理、写作代理和反思代理执行任务,具备多种回退机制确保系统可靠运行。

明确用户意图

“明确用户意图”步骤是消除歧义的第一道防线,系统主动提出澄清问题,确定特定领域或数据类型,增强查询约束条件。通过开发 _领域级选择_ 和提供人工智能辅助的数据源推荐优化过程,“快速失败”机制防止资源浪费。从上下文工程角度看,此步骤限制后续代理接收的问题范围。

思考与规划:过程反思

“思考与规划”步骤负责制定满足用户请求的策略,进行过程反思,评估代理是否朝着最终目标取得正确进展。在多步骤智能工作流中,过程反思至关重要,特别是工具数量增加时,该步骤可提高工具选择准确性,对于编排多步骤过程也很关键。

研究代理

研究代理是主要信息收集者,数据分为结构化和非结构化两类。随着 PRINCE 扩展,将研究能力发展为特定领域子代理层次结构,采用混合检索器方法,包括检索增强生成(RAG)和文本转 SQL。

用于非结构化数据的检索增强生成(RAG)

鉴于大量非结构化文档,RAG 提取相关见解至关重要。介绍了 RAG 管道的摄入过程和查询时架构,包括关键词提取、元数据过滤器生成、查询扩展、混合检索器、重排、最终大语言模型提示生成、带引用的响应生成和监控等步骤。

用于结构化数据的文本转 SQL

需要对结构化数据进行精确过滤等查询更适合文本转 SQL。介绍了将自然语言问题转换为 SQL 查询并检索结果的过程,包括查询分析和意图识别、模式理解和相关模式选择、动态少量样本提示、SQL 查询生成和验证、查询执行和结果限制、错误处理和迭代等步骤。

反思代理:数据验证与充分性检查

反思代理执行数据反思,评估检索到的数据是否足以回答用户问题,与过程反思目的不同。在多步骤智能工作流中,两者都必不可少。反思代理评估数据充分性和相关性,若信息不足则生成后续问题,推动迭代检索。

写作代理:答案合成与格式化

写作代理将检索到的证据转化为最终答案,遵循不可协商规则,如建立主张在上下文中、准确引用、满足格式化要求等。对于复杂响应,架构支持通过内部审查循环扩展写作代理,实现轻量级反思,输出供专家审查。PRINCE 提供三个互补的反思循环。”

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/22 2:26:34

MCP 是什么:AI Agent 连接外部工具和数据的标准协议

MCP 是什么:AI Agent 连接外部工具和数据的标准协议 做 AI Agent 时,很多人会先接 Tool Calling。 模型终于可以请求调用工具: 查订单 发邮件 查数据库 创建工单到这里,Agent 已经不只是聊天。 但项目继续往下做,很快会…

作者头像 李华
网站建设 2026/6/22 2:26:10

ProSDD:基于韵律特征的语音深度伪造检测技术解析

1. 项目概述ProSDD是一种创新的语音深度伪造检测技术,专注于解决当前检测系统在面对情感化和表达性语音攻击时的泛化能力不足问题。这项技术由约翰霍普金斯大学语言与语音处理中心(CLSP)的研究团队开发,旨在通过建模语音中的韵律特征来提升检测系统的鲁棒…

作者头像 李华
网站建设 2026/6/22 2:19:29

基于视觉-语言大模型的无人机自主导航框架FineCog-Nav实践

1. 项目概述:当无人机学会“看图说话”最近在捣鼓无人机自主导航项目时,我一直在琢磨一个问题:能不能让无人机像人一样,看着眼前的环境,理解我们说的“去客厅茶几那里拿个杯子”这种指令,然后自己规划路线飞…

作者头像 李华
网站建设 2026/6/22 2:17:24

大模型训练中的奖励攻击检测与抑制:基于梯度指纹的实战方案

1. 项目概述:当大模型学会“作弊”,我们如何识破与制止?最近在折腾本地部署的大语言模型时,我遇到了一个挺有意思又让人头疼的问题。模型在完成我设定的任务时,比如写一篇特定风格的文案,我发现它开始“耍小…

作者头像 李华
网站建设 2026/6/22 2:12:43

WeChatMsg终极指南:三步实现微信聊天记录本地化存储与智能分析

WeChatMsg终极指南:三步实现微信聊天记录本地化存储与智能分析 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/…

作者头像 李华
网站建设 2026/6/22 2:12:32

物理感知图神经网络:实现大规模无人机集群去中心化连接恢复

1. 从一次真实的集群“断联”事故说起 去年夏天,我们团队在西北某地进行一次大规模无人机集群协同测绘的野外测试。任务进行到一半,指挥中心的监控大屏上,原本紧密相连、代表无人机节点的绿色网络拓扑图,突然像被橡皮擦抹掉了一大…

作者头像 李华