2024 年 5 月 9 日,国家数据局会同中央网信办、交通运输部、农业农村部等 15 个部门联合启动大赛,以场景需求为牵引,搭建起数据供给与流通使用的桥梁,充分激发数据要素的潜在价值。
在大赛筹备与开展过程中,各行业主管部门高度重视、大力支持,各地方积极组织协调,科研院所、投融资机构、新闻媒体等也纷纷协同合作。众多参赛队伍围绕工业制造、现代农业、商贸流通、交通运输、金融服务等 12 个赛道,深入挖掘数据价值,探索出一系列数据开发利用的新场景、新模式。全国共有近2万支队伍踊跃参赛,10万参赛者用数据编织梦想,最终角逐出12个赛道共71支获奖队伍。
本文整理了科技创新领域赛道的8个案例详情。
案例一:地球大数据促进全球和区域可持续发展目标实现
2015年联合国通过2030全球可持续发展目标(SDGs),中国政府将其与“十四五”规划和2035年远景目标等国家战略有机融合,积极推动各项目标任务的落实。目前,对全球及区域可持续发展目标的评估面临数据缺失、指标体系研究不足、区域领域发展不均衡等诸多挑战。与此同时,全球数据总量以每年40%的速度呈指数倍暴增。项目利用大数据技术和多元算力融合技术,解决可持续发展目标评估中数据规范不全、研究方法欠缺和平台协同不足等“痛点”问题,提出可行有效的解决方案,是落实可持续发展目标评估的必由之路。
团队率先提出地球大数据可持续发展目标评估方法和技术体系,拓展和创新数据源,构建了全生命周期的地球大数据管理系统,汇聚PB级地球大数据资源,构建了可持续发展目标大数据平台系统,创新数据、算法、模型和服务一体化的新型共享模式,通过研发可持续发展数据产品,开展全球和区域多尺度示范应用,形成中国方案。
图1 地球大数据评估全球及区域可持续发展目标解决方案示意图
一是建成可持续发展目标大数据平台系统。
平台提出了以数据为核心的存算一体超融合系统架构,突破了地球大数据融合管理、按需计算、交互式协同分析与可视化等关键技术,创新数据、算法、模型和服务一体化共享的新型共享模式。同时,平台建立了评估数据标准规范,构建PB级全生命周期数据管理系统,采用统一的数字标识(DOI、CSTR)和质量控制体系,实现大数据云治理模式。
二是研发具有自主产权的全球及区域可持续发展数据产品。
项目通过构建可持续发展目标综合评估模型,创建多尺度评估服务方式,服务于全球可持续发展指标评估。在“一带一路”、亚非等热点区域粮食安全、气候灾害、水资源保护等专题中进行综合应用。
三是建设国内外数据资源开放共享体系。
依托可持续发展大数据国际研究中心建设,利用卫星、野外采集及政府机关公开发布、国内外开放共享等开放数据源,推出多尺度科学数据产品并持续开放与更新,实现数据增长。同时,还可以实现系统及功能的迭代,在数据源、平台、应用示范及服务推广上具有可持续性。
四是项目数据成果逐步进入价值变现阶段。
近5年,项目成果已经服务联合国及174个国家和地区,拥有近70万独立IP用户,取得直接经济效益15.27亿元,间接经济效益1.37亿元,推动了我国首个国家省域可持续发展议程创新示范区和国家可持续发展示范区的建设。
五是在可持续发展目标数据应用领域形成了全球影响力。
可持续发展目标大数据平台系统首批入列联合国可持续发展技术机制在线平台(UN 2030 CONNECT)。项目将研制的20套全球及区域可持续发展数据产品赠送联合国,并将成果在78届联合国大会期间视频展示。同时,数据成果纳入了全球发展倡议、
金砖国家
、中非论坛等高级别会议成果清单。
当前,国际上蛋白质算法预测的多是蛋白的静态结构,由于自然界中存在的活性蛋白都是运动的,因此,如何了解蛋白的运动规律,对靶点和药物的研究至关重要。北京大学深圳研究生院研究团队积极探索大数据驱动的蛋白质设计科研范式,提升蛋白质设计效率,并实现蛋白的可控设计,推动研发的药物对靶点更强针对性,更小毒副作用。
一是积极探索大数据驱动的蛋白质设计科研范式。
团队在“AI+蛋白质”设计领域取得了重大突破,提出了一种新的冷冻电镜成像算法,即重建蛋白酶体底物降解动态自由能面,并收集了200T特有的四维冷冻电镜独有数据。根据该数据库模拟了蛋白酶体构象的连续体动力学变化,研发了国际领先(First in Class)的靶点机制。同时,基于收集的独有数据集,进行多模态大模型训练,进行蛋白质设计、生成和筛选,并将成果进行了商业转化,目前已获得多轮天使融资,与多家企业开展了合作。
图1 基于审计的蛋白质设计大模型
二是丰富数据的来源、扩充数据规模。
数据主要来源于公司自己采集、分析和建模,以及公共数据的分析。其中,约200T私有数据利用了北大的成像装置采集、纯化得到。同时也辅助加入国际上公开约60P的蛋白质数据库。
三是利用大数据训练蛋白质可控生成大模型。
将训练好的大模型用于任意给定靶点的药物设计。通过结合虚拟筛选和物理驱动等策略,可以进一步甄别高质量药物候选物,将湿实验门槛降低到可快速验证的数量级。
四是利用蛋白生成大模型生成特定的靶向药物。
目前主要围绕“蛋白酶+炎症小体”,研发世界级领先的药物,为抗癌、抗病毒、抗细菌等方面的蛋白质药物研发提供新思路和解决方案。
通过蛋白质设计、生成和筛选,逐步形成和掌握蛋白为核心的制药关键大数据,形成数据为基础的真正的核心竞争力。
图2 产业链协作模式
五是积极探索项目的社会经济效益。
项目有利支持多特异药物研发,先导药物发现的时间从24个月缩短至5个月。深圳埃空间生物科技公司完成了种子轮融资,自研了候选药物用于治疗心梗等心血管疾病。目前完成动物实验阶段,已与江苏某医药民企合作开发创新药物,同时与慢性病管理机构达成战略合作。
案例三:数据驱动海洋大模型训练,加速探索海洋科学研究新范式
党中央高度重视科技创新发展,科技创新已成为发展新质生产力的核心要素,加强基础研究是世界科技强国建设的必由之路。当前,海洋科研数据的开发利用面临数据质量低、数据处理应用难、海洋科技成果转化难等痛点。为推动海洋科研数据的价值转化和流通增值,青岛国实信息科技有限公司作为崂山国家实验室的服务支撑平台和科技成果转化平台,多渠道汇聚海洋科研数据驱动海洋大模型产品研发,服务物理海洋学研究及全国沿海省市海洋信息化建设,打造海洋科学研究新范式,为我国科研数据资产化管理探路先行。
图1 打造海洋科学研究新范式
一是打通三种获取数据渠道,建设全球海洋大数据中心。
通过建设自主海洋数据观测体系、搭建全国首个海洋数据交易服务平台,以及开展互联网数据采集等三种渠道,汇聚四大领域292类数据资源共100亿条,打造全球海洋高质量训练数据集共10大类171个,为深入挖掘数据应用场景、开展海洋大模型训练提供支撑。
图2 海洋科研数据汇聚与治理
二是突破两项核心技术,研发海洋大模型产品。
一方面,创新海洋大数据治理技术,整合卫星、浮标、船舶观测等13类多源异构类型数据,形成海洋数据处理规则31种。另一方面,突破海洋大模型技术,面向国产算力平台进行模型适配与优化,助力大模型对海洋复杂知识系统的理解能力提升10%,训练周期缩短90%、成本降低30%。在产品研发方面,以全球海洋再分析数据集作为训练数据构建海洋环境预报大模型,研发全球高分辨率海洋环境预报产品,服务于海洋气候模拟与预测、海洋环境保护等领域海洋科学研究。同时,依托海洋科研文献训练的“海悟”大模型产品,辅助科研人员快速处理和提取科研文献关键信息,助力发现新规律、推理科研新方向。
图3 全球海洋环境精细化预报服务
三是构建海洋数据可信服务底座,保障数据应用安全。
依托混合算力集群资源和百P级数据存储设施,应用国密算法、安全协议、数据保密通信中间件等,保障数据软硬件环境安全。同时,基于隐私计算、区块链技术建设海洋数据资产登记系统,建立数据访问权限控制机制,制定数据来源合规性审查、数据流通管理等制度共42项。
四是打造海洋数据流通交易新模式,形成海洋治理新引擎。
项目建设的海洋数据交易服务平台,创新海洋数据存证溯源、数据质量评估、数据定价方法等机制,实现场内累计交易额3110万元,与40余家涉海单位开展数据生态合作。海洋大模型产品已应用于山东、福建、广西等沿海11个省市海洋信息化建设中,渔船大风网格化精准调度能力提升20%,浒苔灾害治理处置效率提升15%以上,服务大型涉海企业50余家。
图4 海洋数据流通平台
案例四:国家重要野生植物种质资源库助力国家战略生物资源开放共享
种质资源是国家重要的战略性生物资源,对于维护生物多样性、保障种业安全和推动经济社会发展至关重要。我国高度重视种质资源的收集、保存和共享,建成了以“中国西南野生生物种质资源库”为代表的多个野生植物种质资源库,在全国范围内开展野生植物种质资源的采集保存工作。由于各个野生植物种质库分散在不同区域,所属行业内也略有差别,缺乏统一的种质资源数据标准、数据汇交和共享平台,不利于野生植物种质资源的宏观管理、资源建设和共享利用。国家重要野生植物种质资源库共享服务平台通过汇聚全国11个科研机构和高校的种质资源数据,促进资源的共享和高效利用,为科研、生产和教学提供有力的支撑,夯实生物多样性保护和种源安全,推动科技创新和产业发展,对我国经济社会发展具有重要意义。
一是实现种质资源大数据的汇聚与共享。
共享服务平台汇聚了国内主要从事野生植物种质资源收集保藏单位的种子、DNA和离体培养物等10类24万余份种质资源,实现了各类种质资源数据的在线汇交、管理和分发等功能,是目前国内最大的野生植物种质资源共享服务平台。
二是构建高质量的野生植物种质资源数据集。
高质量的种质资源数据能够为科学研究和生物多样性保护提供数据支撑。项目团队规范了种质资源的采集和保藏流程,为各共建单位提供培训,提高种质资源数据的采集水平。同时为各类野生植物种质资源制定元数据标准和数据汇交标准规范,保障野生植物种质资源数据权威性和信息完整性。
三是有效支撑生物多样性保护研究和战略生物资源的开发利用。
共享服务平台立足野生植物种质资源的收集和保藏工作基础,积极履行国际生物多样性公约,为国内外机构提供资源备份和管理服务。同时,系统收集特有种、珍稀濒危种、重要经济价值物种等重要种质资源,为野生基因资源提供保障,能提供物种精准鉴定服务,支撑服务公检法系统和食品药品安全检测等。
案例五:基于影像云与青光眼 AI 辅助诊断的基层筛查体系
中共中央、国务院在《“健康中国 2030”规划纲要》中强调,要调整优化健康服务体系,强化早诊断、早治疗、早康复,坚持保基本、强基层、建机制,更好满足人民群众健康需求。然而,我国专业眼科医生资源匮乏,约平均5万人才有1.6个眼科医生;我国青光眼患病率为2.58%,致盲人数占比超过1/4。由于青光眼的社会认知度较低,2/3的患者在初诊时已是中晚期,且目前呈现年轻化趋势。深圳市腾讯计算机系统有限公司项目团队通过将影像云与慢性青光眼样视神经病变眼底图像辅助诊断软件相结合,一方面辅助基层医师开展眼底青光眼疾病的筛查,另一方面助力区域内多机构实现影像数据的互通与联动阅片诊断,实现医学影像的流通与筛查创新。
一是通过平台推动数据汇聚与融合共享。
该项目通过影像云,在医疗机构间架起了一座桥梁,通过对已授权眼底医学影像数据的采集汇聚、质量控制和流转分析,辅以远程诊断等工具的应用,极大推动了医疗影像数据的流通。同时,基于青光眼AI辅助诊断软件实现其在眼底疾病筛查领域的高效应用。
二是通过新技术提升业务效率和联动协同。
基于腾讯影像云人工智能技术、数据处理和分析能力,合法合规整合卫健部门和医疗机构医疗健康数据,提供影像云远程会诊和远程诊断的产品服务,提升医疗机构间的联动,并通过AI为业务提效。
三是基于数据赋能应用场景,产生临床及社会价值。
在临床应用中,能够高敏感性的发现青光眼,提高疾病检查率,提升机构内医生诊疗质量,降低患者就诊时间成本和经济成本。同时,能够使更多早期青光眼患者通过更早发现来避免致盲及经济损失,有助于降低诊疗和医保支出。
四是以义诊活动推动数据样本优化迭代。
项目至今,累计进行患者筛查超20万例,并先后在全国多省市开展义诊活动,筛查出超过4万例疑似眼底异常患者。同时,项目通过影像云与AI辅助诊断助力辅助诊断和意向数据互通协同、迭代优化,实现基层筛查场景,符合国家健康中国、分级诊疗、医疗高质量发展政策,解决医患比悬殊等共性问题。
虚拟现实作为新一代信息技术的重要前沿方向,将深刻改变人类生产生活方式。眼动追踪技术作为继鼠标、键盘及触屏之后的未来人机交互关键技术,已在医疗健康、智能汽车、在线教育、心理研究等领域展现出广泛的应用价值,未来也将在虚拟现实领域充分体现其作为重要底层技术的价值。但作为一项新兴技术,它极度依赖于高质量的科学数据集,存在数据集成本过高、推广泛化性差、精度难以量化等痛点。甬江实验室利用人眼脱敏数据、公开数据库、真人采集眼图等数据资源,结合数字孪生、AI建模等技术,建立了一套低成本、易推广泛化及高精度的虚拟数据集生成平台,供企业进行算法研发,同时,自主研发了世界首套高精度人眼模拟设备,对眼动追踪技术精度进行量化评价与优化反馈,促进虚拟现实行业系统生态的完善与推广。
一是收集完整的眼球动、静态数据来源。
数据来源主要包含眼球结构数据采集、眼动轨迹动态数据采集和3D头模数据获取三种方式。其中,眼球结构数据主要与温州医科大学附属眼视光医院合作,获取科研数据授权,建立高精度的眼球模型数据库;眼动轨迹动态数据通过真人采集眼动轨迹数据,捕捉眼球在不同情境下的运动规律;3D头模数据则利用网络资源获取公开授权的3D头模数据。这些数据用于构建逼真的人脸模型,提高眼动追踪技术在不同人脸形态下的适用性。
二是建立了完善的数据治理体系。
医院出域的数据符合内部数据管理办法条例,在数据传输的过程中,遵循《中华人民共和国数据安全法》,采用传输加密、访问限制等技术确保数据不被篡改、窃取。同时,项目团队对获取到的数据进行进一步的匿名、脱敏、特征提取等操作,确保数据的隐私性和安全性,使其仅具备科研属性。
三是实现了数据的高效利用与特征提取。
通过数据研发利用平台建设,项目集成了等多种神经网络模型,对人眼数据集群进行学习,建立了参数化的多特征眼球模型,可高效生成虚拟眼图供算法训练。同时,根据模型的学习结果,自研了高精度人眼模拟设备,作为标准化测试设备,来实现对人眼的准确模拟。
四是实现了广泛的数据应用方式与场景。
在虚拟眼图应用上,将数据训练生成的虚拟眼图可提供给企业进行眼动算法的训练。这些虚拟眼图具有高精度和多样性,能够帮助企业提升眼动追踪技术的性能和准确性。在高精度人眼模拟设备上,能为企业提供高精度眼动模拟服务,用于测试和优化自身算法的精度。通过该设备,企业可以量化地评价自身算法的精度,并进行反馈和优化。
五是采取多样化运营,带来稳定收益。
项目可通过出售标准化测试设备、定制服务、以及测试与算法服的方式来获取收益。其中,自研的高精度人眼模拟设备,能够量化测试眼动算法精度,可出售给算法开发商使用。虚拟眼图、多特征眼球定制服务可向医院、眼动算法商提供定制化的虚拟眼图与眼球模型。而测试与算法训练服务可供整机产品商进行眼动算法的训练与功能集成。在经济效益,降低了80%的硬件成本和75%的人力投入,标注效率增加到250倍,标注精度增加200%。在社会效益上,眼动追踪技术可以广泛应用于医疗健康、智能驾驶等领域,可辅助医生进行更加准确的诊断,帮助降低司机的疲劳驾驶风险。
案例七:为千行百行插上数据之翼——天元数链公共服务平台
随着国家创新体系建设不断提质加速,逐渐形成以科技型企业、科研院所和高等学校为主体的协同创新体系。然而,在跨学科、跨领域的协同创新与科学研究中,存在着数据共享机制不全、运算成本高、治理难度大、安全管控难等普遍问题。
云上贵州
大数据产业发展有限公司以科学研究、技术创新等场景需求为牵引,打造“数算模用”一体化的数据流通基础设施——“天元”数链公共服务平台,推动科学数据有效汇聚、高效治理与互联互通,助力我国科学创新高质量发展。
一是以公共数据中的科学数据为牵引,让数据“供得出”。
通过政府部门、公共企事业单位先行释放的公共数据中科学数据为牵引,如科技、自然资源、统计等单位的地理时空数据、气象数据、水利数据、知识产权、学术期刊等数据,吸引其他科学数据进场融合,推动多学科数据关联分析和融合应用。
二是建设“数算模用”一体化平台,让数据“流得快”。
平台面向数据提供方、数据需求方、数据加工方、数据监管方等多元主体,提供数据归集、清洗加工、算法开发、模型训练、流通交易、安全管控等全链条技术支撑,推动科学数据跨域互联协作,实现开发过程可用不可见、交付过程可追溯可计量、全流程可监管,降低数据流通成本。同时,建设大模型训练推理子平台,为科学研究和创新应用提供人工智能技术支撑,降低实验试错成本,加快数据价值挖掘和应用。
三是建设全流程安全监管平台,让数据“控得住”。
打造数据全流程安全监管平台,通过API、ETL流量监测,接入安全日志、业务日志及流量日志,对数据归集汇聚、加工开发、流通运营等进行全流程安全监管。同时,提供数据运营者、数据监管者、数据运维者等视角,对数据使用行为进行全面审计分析,对数据泄漏等风险进行及时告警、响应和处置,实现数据安全IPDR闭环管理。
四是以科学数据融合场景为导向,让数据“用得好”。
在社会科学数据应用方面,整合宏观经济数据、市场交易数据、公共设施数据等,开发形成了1000余个经济运行指标、100余个经济预测模型分析指标,打造区域经济社会运行监测数字化支撑体系,提升经济政策制定合理性和效率;在交通科学数据应用方面,融合交通轨迹数据、网货运单数据、营运证照数据等,联合科研机构开发100余项指标,首创OFTM税务合规性监测模型,帮助税务部门对运单真伪智能监管,为企业降低合规性评估成本。在法学数据应用方面,汇聚法律文献期刊、司法案例、法律规章等数据,通过大语言模型训练,打造智能问答、智能审查等法律领域应用。
五是打造“产研”生态协同体系,让平台“活起来”。
一方面,与科研机构、高校院所、科技企业等形成“产研”生态协同体系,为科学研究与科技创新提供“数算模用”一体化基础支撑;另一方面,通过平台链接数据科技服务方、场景应用需求方,促进科研成果转化为产品,助推其商业化应用。
文化遗产对于赓续中华文脉、弘扬民族精神、提升文化自信等具有非常重要的价值和意义。然而,文化遗产数据在活化利用的过程中,特别对于确权、侵权发现、取证、维权和授权等方面存有诸多难题。同时,传统文物保护方法的局限性和高成本,难以满足大规模文化遗产的保护需求。当前,人工智能(AI)技术、数字孪生技术、数字采集技术等数字化技术的发展,为文化遗产的保护与传承提供了新的可能。腾讯通过探元平台探索数字科技助力文化遗产焕新、为中国优秀文化的传承与发扬贡献力量。
一是制定统一标准规范推动数据融合共享。
平台依托腾讯在科技和互联网领域的深度积累,创新将国产区块链、自研人工智能及游戏技术应用在文化遗产领域,搭建了高效便捷的SaaS化平台产品服务,提供资源管理、版权管理、资源授权交易及资源创意生产等功能。先后上线数字资源库、数字工具箱等模块能力。其中数字资源库包括数字文物库、文创素材库和戏曲资源库,连接300余家文博机构,存证25000余件数字资源。深度打通微信、游戏、影视等活化利用场景,触达上亿传统文化爱好者和传承用户。
二是建设数据版权存证全链路服务推动监测效率提升。
探元平台基于国产区块链底层技术及微信支付能力,从0到1搭建“版权存证-版权授权-版权交易-版权监测-侵权取证-版权维权”全链路产品,助力文化遗产各类资源安全可靠开放共享。其中版权监测方面,全网侵权监测能力已覆盖15个品类、覆盖37W+侵权站点,实现头部平台100%覆盖,已攻克海外、网盘、长尾网站等高难侵权场景,比对准确率达到99.6%,工程链路时效最快10分钟可完成监测维权全流程。在版权存证方面,支持音视图文、3D模型等多类别数字版权资产7*24小时快捷登记存证,秒级证据返回,区块链技术固证并直通司法,已与北京互联网法院实现跨链对接,程序可信安全。在侵权取证方面,支持探元实现PC自动化批量取证,自动录屏取证平台覆盖总数65个,头部平台覆盖率100%,攻克滑块、黑白屏、遮挡、报错四大类不可用难题,取证可用率达95%,下架标记准确率达100%。在版权维权方面,支持机器发函/人工投诉/屏蔽断链/诉讼等多种维权形式。
三是丰富数据资源应用场景,提升数据价值。
形成可视化报告、业务指标等多种成果形式,强化数字展陈体系建设、线上线下IP联动建设等文化遗产创新活化方式。诸如在“数字中轴”项目,在应用层推出云上中轴小程序、时空舱、小宇宙等互动体验产品,加强北京中轴线数字资源在公众端触达和直观体验。此外,通过游戏、视频号实现数字资源二创及IP强化,与《和平精英》、《天涯明月刀》合作天坛场景互动及
先农坛
华服,参与用户数百万。发起“繁星100”视频创作、元梦之星全民共创地图等场景共建活动,全国近5000万用户参与创作,助力文物数据资源充分发挥落地价值。
四是建设多式联运数据生态推出公益反哺可持续发展模式。
推动多式联运数据生态建设,广泛整合文博机构、古迹遗址和文创设计等共创伙伴,形成一站式数字资源平台。基于用户类型和服务内容实施分类服务,提供学术研究公益免费下载、低成本资源使用费和落地场景共建商业费用等方式实现数字资源的有效流转。通过设立“繁星数字守艺人”公益项目,持续为文化遗产资源数字化提供支持,形成有效循环,积极拓展数字文创、数字金融等增值服务,创造更多公益反哺来源,形成可持续发展模式。
18个行业,106个中国大数据应用最佳实践案例:
(1)《赢在大数据:中国大数据发展蓝皮书》;
免费试读:https://item.jd.com/12058569.html
(2)《赢在大数据:金融/电信/媒体/医疗/旅游/数据市场行业大数据应用典型案例》;
免费试读:
https://item.jd.com/12160046.html
本册“
微信读书
”免费阅读:https://weread.qq.com/web/bookReview/list?bookId=f0532d707159f0dff058c4e
(3)《赢在大数据:营销/房地产/汽车/交通/体育/环境行业大数据应用典型案例》;
免
费试读:https://item.jd.com/12160064.html
(4)《赢在大数据:政府/工业/农业/安全/教育/人才行业大数据应用典型案例》。
免费试读:
https://item.jd.com/12058567.html
或点击
“阅读原文”
,购买“赢在大数据系列丛书”。
推荐文章