专栏名称: 药渡
药渡以自有药物大数据为依托,对上市及临床在研药物、药物研究进展和重要药物市场商业动态作出信息整合分析,传递最新最快最具价值的药物创新一手资讯
目录
相关文章推荐
医药经济报  ·  OTC进集采,核心独家大品种降不降价? ·  6 天前  
Insight数据库  ·  阿斯利康 B7-H4 ADC,首次披露临床结果 ·  4 天前  
51好读  ›  专栏  ›  药渡

太强了!看一篇文献1秒下载所有结构式,生成构效关系

药渡  · 公众号  · 药品  · 2024-09-10 07:30

正文


如果从事药物、材料等化学研究有关的工作,读文献、整理笔记,是刚需,每周都要费我们一番时间。


结构式要记,构效关系要整理。


结构是基础,组成了我们的底层数据库。


化合物构效关系则揭示了分子结构与其物理、化学或生物性质之间的内在联系,是药物发现、材料科学以及基础化学研究中的核心要素。


然而,结构式和构效关系数据通常分散在大量的论文和专利中,传统以手动方式来收集、整理和分析这些数据,既耗时又容易出错。分析一篇数百页的化学专利,常常要至少一周的时间。


此外,不同来源的数据可能存在格式不一、质量参差不齐等问题,进一步增加了整理工作的难度


因此,越来越多的文献,带给我们这一代科学家无尽的苦恼。


往远说,人工智能(AI)在不少行业已入如火如荼,它的基础是数据,但生物医药、化学、材料领域的大量非结构化数据局限了AI的进展。


为解决这一难题,鹰谷推出了全新的文献结构化挖掘系统InPaper,能够批量识别专利或论文PDF中的化学结构和反应图片、化学名称和分配活性数据,形成构效关系表。我们离AI制药的数据自由,又近了一步!InPaper专为化学家打造,将人工智能、大模型应用于PDF数据提取过程,自动化、高精度从文献和专利数据库中获得结构式、反应式和活性数据,智能组合为化合物SAR构效关系表,形成构效关系表。InPaper中的结构式AI图像识别,经CLEF2012、UOB、USPTO公开用例集的12420张化学结构式图片数量测试,平均识别准确率高达99%。让我们一起来看看,这款将为大家节省每篇专利一周分析时间的软件服务吧!

文件上传

首先,我们需要在系统里上传我们需要解析的文件(如专利、期刊论文,可以是纯文字格式,也可以是图片格式),支持上传的文件格式,包括pdf, png, jpg, tiff, bmp,word (.doc, .docx), ppt (.ppt, pptx), excel (.xls, xlsx)。先上传完成的文件会在下方文献列表中先识别,后上传的文件在识别进度中会显示“排队中” “已完成”。



一、批量识别化学名称

InPaper可以智能识别一段文本是否为化学名称,并批量将提取到的化学名称自动转换为结构式。这些化学名称的文字,可以是图片格式,也可以是纯文本格式。提取到的中文化学名称,和英文化学英文名称,可通过InDraw的IUPAC中英文命名转换技术,将这些化学名称自动转换为结构式。其中,将中文化学名称自动转化为结构式的功能,为鹰谷的全球独家具备的功能。点击心形图标,收藏进关注表后,可对名称进行修改,修改名称后会自动同步修改对应的结构式,且不会影响总表中的识别结果,方便对识别错误的内容重新编辑。


二、批量识别结构图

批量识别论文/专利中的结构图,对于识别出的结构图,如需编辑,您可将其添加至关注表中,双击更改结构,结构一旦更改,其分子量,分子式等信息会根据修改后的结构自动更新。



搜索框内支持分子式、分子量的文本搜索和结构式搜索。点击结构图,可定位到原文位置,可以复制SMILES格式,并识别出分子量、分子式等信息。最后,还可以选择是导出全部或部分所选化合物,导出格式为.xlsx的表格。


三、批量识别化学反应

批量识别图片中的化学反应式,反应式识别可以分为图片识别“P”和文本识别“T”两种。值得一提的是,InPaper的化学反应文本识别功能可将描述化学反应式的文本,转换成反应式,并自动识别出化学式中的反应物、产物等信息。支持反应式搜索,可以单步搜索,也可以跨步搜索。如反应式:A+B->C+D+F->G+H->E,单步搜索:对于上面的化学反应,进行搜索时,通过A->C搜索,可以搜索到A+B->C+D+F;跨步搜索:实现C->E搜索,可以搜索到C+D+F->G+H->E。


四、批量识别表格

将文献/专利中的多个表格进行提取,方便用户对表格中的数据再处理,便于用户对表格进行复制,可定位到原文中原位置,并高亮标注。表格的页面布局主要分为两个区域:表格总览区和InTable区(可类比Excel),表格总览区展示当下这篇文献中的所有原表格,InTable区会将当下文献中的原表格识别成可方便用户复制的格式。每点击一个上述“表格总览区”中的表格,就会在相应InTable下面识别原表格的数据。在InTable中,可以直接选中区域后,用Ctrl C/V进行复制粘贴。


五、 生成构效关系表

构效关系为InPaper中最具亮点的功能,论文/专利内化合物物化信息与生物数据往往不在同一个表格中展示,用户在阅读时往往需要在不同表格之间查找某一化合物的不同数据信息,以分析化合物的构效关系,表格信息的分散会使得用户花费过多的搜集时间。为解决此类问题,InPaper基于大模型和深度学习,将文献当中的化合物与生物测试、活性信息进行整合,提供集中化的数据展示效果,将编号自动分配对应的结构式,智能获取相应的生测数据,生成构效关系表,方便用户直接进行构效分析,加速新的小分子设计。



单击构效关系图中的“值”或“靶点”单元格数据,可跳转到原文这些数据出现的位置,并可切换活性数据的显示方式,显示为表格中的字母代号,或显示代号对应的具体数值。支持多条件筛选,便于用户查找特定靶点或特定数值范围内的活性数据,以及其他特定条件组合下的数据。


免费试用领取方式

InPaper自2017年开始研发,基于自然语言处理、大模型和深度学习,不断提高识别准确率。经过7年的内测与打磨,于2024年7月3日正式上线。


未来,InPaper将结合文献中结构化的数据,为科学家提供数据推荐服务,提供书写专利、论文等AI/GPT相关功能,助力研发实验室实现大数据的整合应用,完成数智化升级,成为科研人员的得力助手。


InPaper目前是基于SaaS的应用,欢迎广大科研人员免费试用,扫码添加小鹰客户为好友后,发送“申请加入鹰谷InPaper官方交流群”,即可免费申请账号哟。由于服务器性能限制,名额有限,限量领用,先到先得哦!


扫码添加小鹰客服,加入官方交流群,申请免费试用


关于鹰谷

让研发有数据、有智慧、有未来

上海鹰谷信息科技有限公司(Integle)成立于2013年,致力于为企业建立自己的研发数据库。以电子实验记录本为中心,提供电子实验记录本InELN、试剂与生物样本库存管理InWMS、科研采购管理InPMS、化合物与生物分子注册管理InCMS等数字化实验室软件,由科学家打造,拥有生物序列编辑器InSequence、结构式编辑器InDraw等工具类软件,经过10多年的迭代开发,掌握IUPAC中英文命名、化学结构高精度AI图像识别、质粒设计、引物设计等专业技术,实现国产替代,解决很多行业“卡脖子”问题。服务团队大多数为来自世界五百强、北京大学、复旦大学、上海交通大学、浙江大学等化学、生物领域的科学家和工程师,做到真正理解客户需求,为客户的业务场景提供更专业的解决方案,具备30分钟快速反馈的响应机制,让客户更安心。

目前已经服务了500 多家生物医药客户,其中包括80多家上市公司,率先出口美国,如华为、扬子江、倍特、马应龙、和记黄埔、艾力斯、人福医药、迈瑞医疗、晶泰、英矽智能、天境生物、益方生物、美国ADARx Pharmaceuticals、美国Staidson Biopharma、美国SparX Therapeutics、中科院上海神经科学研究所等企业或高校研究所。


鹰谷明星产品——电子实验记录本InELN,支持云端部署或本地私有部署,节省实验记录时间,确保记录完整准确,积累数据,提升管理效率。通过全文搜索、结构式搜索、基因序列比对、数据结构化等,便于合作者间实现网络协同、促进合作,大大提高团队工作效率,避免“一半人重复另一半人的失败”,成就“一半人复制另一半人的成功”,帮助企业50人做出100人的业绩,帮助企业采用新一代的数字化生产力工具和管理工具,在生物药物、小分子药物、医疗器械、新材料、化工、农业、食品等研发上抢占先机。


鹰谷核心工具软件——InDraw结构式编辑器,是国内首个自主研发的全功能化学结构式编辑器,旨在为化学和生物科研人员提供简单、易用的绘制化学结构式、反应式、高分子材料、生物聚合物、生物信号通路、科研素材的绘图工具,支持化学结构中文(全球首家)或英文的IUPAC命名,高精度AI化学结构式图像识别,HELM大分子分级编辑语言(用于绘制多肽、核酸、多糖、高分子材料等),兼容ChemDraw,有网页端、客户端两种版本,已被大量用于发表专利和论文,生成高质量的矢量图。


鹰谷新品工具软件——InSequence序列编辑器,对标SnapGene,由鹰谷纯自主研发,攻克分子生物学核心算法技术,可用于DNA/RNA/蛋白序列编辑,实现序列编辑器科研软件的国产替代,拥有自主知识产权,简单易用,免费下载。兼容GenBank、Addgene文件中的序列信息,支持自动标注与手动修改特征、酶切位点、引物、开放阅读框等信息,实时计算引物长度、Tm值、GC含量,高效设计引物,支持引物碱基的添加、删除与替换,支持自动翻译序列与翻译框架移动,快速分析特定的序列区域,支持收藏和管理多个序列、引物及酶组信息,支持与合作伙伴分享收藏夹内容,保持序列结构、引物、特征等信息的完整性和数据一致性,突破领域空白,持续升级迭代。

鹰谷新品工具软件——InPaper文献结构化系统基于AI研发的专利/论文数据挖掘工具,旨在帮助化学、生物、材料等科学家们快速分析文献,实现从名称获取结构图,批量导出结构的SMILES/Mol文件,直接复制列表数据,组装构效关系等功能,还能跨多个文献进行全文搜索、结构式搜索,为大家建立一个可搜索的文献数据库。