专栏名称: 海南省数据产品超市
海南省数据产品超市通过有序开放公共数据资源整合社会数据资源,引进具有技术服务能力和研究分析能力的大数据企业、机构和团队,进行数据产品开发生产、供需对接、流通交易,构建统一公平、竞争有序、成熟完备的数据要素市场体系,促进自贸港数字经济的发展。
目录
相关文章推荐
富兰克林读书俱乐部  ·  人生下半场,富养自己的最好方式:心宽 ·  昨天  
山西省教育厅  ·  山西省教育厅关于组织参加2025年寒假教师研 ... ·  昨天  
山西省教育厅  ·  山西省教育厅关于组织参加2025年寒假教师研 ... ·  昨天  
为你读诗  ·  如果孩子只能读一本历史书,那一定是它 ·  2 天前  
51好读  ›  专栏  ›  海南省数据产品超市

国家发布|第二批“数据要素×”典型案例合集(二)

海南省数据产品超市  · 公众号  ·  · 2024-11-06 10:06

正文

"

8月29日,国家数据局会同科技部、农业农村部、文化和旅游部、中国科学院、中国工程院、国家文物局、国家中医药局等部门在中国国际大数据产业博览会上发布第二批28个“数据要素×”典型案例。第二批案例在注重发挥以数据解行业发展难题、促行业效益提升作用的同时,更加突出数据来源合规、治理有效以及依靠先进适用技术保障数据安全流通等内容,彰显数据要素推动经济发展的乘数效应。

"
案例十一: “以数补链”发展新质生产力 赋能车路云一体化产业能级提升
车路云一体化是包括云计算、人工智能大模型等新一代信息技术深度赋能汽车和交通产业的战略性新兴产业,未来发展潜力巨大。智能驾驶汽车测试存在数据采集成本高、周期长、高价值场景缺乏等痛点问题,浙江德清莫干山智联未来科技有限公司、德清县数据局、阿里云计算有限公司、杭州数据交易所有限公司等单位联合构建以车路一体化场景数据库为核心的数据要素流通平台,通过融合红绿灯、交通事故、道路施工等公共数据和路侧车路协同行业数据,提供智能驾驶仿真场景库,基于先导区已建成的智能网联汽车封闭测试场和全域开放测试道路,补全“仿真测试-封闭测试-开放道路测试”的智能驾驶研发测试服务全链条,构建“以数补链、以链优数”的产业协同创新生态。

图1 车路云一体化数据要素流通路径

一是以授权运营促行业数据流通。 依托省、市公共数据授权运营平台,针对数据产品开发所涉及的字段实施分类分级脱敏管理,将脱敏后的交通信号灯、道路施工、交通事故等公共数据,融合路侧设备采集和感知融合后获取的路侧交通参与者、路况感知等数据,为智能驾驶和交通等行业大模型训练提供了智能数据底座。

二是以场景驱动补数据服务链条。 研发上架智能驾驶仿真场景库、路口车流量统计等系列数据产品,服务自动驾驶系统仿真测试、交通违法治理辅助决策、优化能源基础设施规划与选址等场景。截至目前,累计为20余家车企、交通研发企业和高校提供服务。

三是以标准体系筑数据安全底线。 聚焦车联网数据安全生命周期,率先出台数据脱敏和分类分级两方面地方标准规范,创新车路云一体化数据要素流通平台全流程监管技术,实现数据“采存算管用”的全过程安全保障,筑牢数据安全合规利用底线。
四是以登记交易引数据资产增值。 有关数据产品通过上架杭州数据交易所等交易机构,完成合规认证和数据要素流通交易闭环。实现国家级车联网先导区行业数据产品场内交易。


图2 智能驾驶仿真库数据产品应用效果
案例十二: 搭建普惠金融综合服务平台 破解中小微企业融资难点问题
为完善西藏数字金融基础设施,加快涉企信用信息归集共享,有效激活信用数据价值,西藏高驰征信有限责任公司基于区内涉企信息数据,搭建了西藏自治区普惠金融综合服务平台“藏金普惠”,为西藏各级政府部门、金融机构和企业提供可靠、高效的征信服务,有效推进西藏高原经济的高质量发展。
一是汇聚多源数据。 经政府部门同意,汇聚拉萨海关、税务局、科技厅、经信厅等12个部门数据;与自来水公司、燃气热力公司建立合作关系,通过接口对接、线下对接等方式,融汇水、气、热力等民生数据;通过与企业签订授权协议,获取平台内企业相关数据。汇聚整合工商、司法、住房、银税、专利、企业等多源数据,形成了涵盖10大领域100多个维度的企业信用专题库,实施“一企一库”管理,结合监控、定时更新等机制,实现数据高效流转。
二是打造综合金融服务矩阵。 基于业务场景需求,利用机器学习、自然语言处理、区块链等技术,构建客户画像模型、反欺诈模型、经营准入模型、客户评分模型等信用模型,依托藏金普惠平台正在与银行联合开发税务贷、政采贷、公积金贷等定制化产品,打造“全线上、全场景、全主体、全周期”的综合金融服务矩阵,以数据“可用不可见”方式为金融机构和政府部门提供定制化信用报告,实现金融政策、产品、服务“一站式”供给。

三是搭建数据资源管理服务平台。 依托数据流通机制,遵照数据使用权限,平台面向政府部门、金融机构与企业,实现数据交换、服务的统一接入和开放。基于平台提供加解密、鉴权、协议转换、注册服务、身份认证、异常处理、服务路由、日志管理等服务。通过数据接口管理、元数据追溯、数据分类分级等管理方式,结合统一的对外标准化服务封装,将以往各系统、各平台之间点对点连接形成的网状拓扑结构,优化为星形拓扑结构,大幅降低数字金融服务网络复杂度,提高了各应用场景数字金融服务研发效率。

“一企一库”企业信用主题库架构
目前,藏金普惠平台已汇集涉企数据超1亿条,入驻企业超1.1万家,占比达到西藏中小企业总数的15%,入驻金融机构网点345个,占比达到西藏金融机构网点的99%,发布金融产品超200个,融资申请超2100笔,授信额度超340亿元。
案例十三:科技文献数据挖掘 助力科研效率提升和大模型训练
科技文献为科学研究提供了丰富的研究资源与参考资料,是学术交流的重要媒介。科技创新需要大量科技文献数据支持,但传统文献文档内容结构松散,信息分布呈现碎片化特点,导致数据筛选整合低效,严重影响科研效率。中国科学院文献情报中心联合相关单位借助人工智能技术,深度挖掘科技文献中的数据价值,构建覆盖多领域的高质量数据集,支持科技领域大模型建设,助推科研范式变革。

一是合规归集高质量科技文献数据。 在遵循知识产权法规和国际通行规范的基础上,充分发挥中国科学院文献情报中心和国家科技图书文献中心(NSTL)的学科优势,与领域内的科学家紧密协作,汇聚大量权威可靠的科技文献数据及专业领域知识。通过对科技文献全文数据中的文本、图表、公式等进行多模态解构,构建了一个覆盖多个学科的综合知识资源库,不仅包含了传统的文本信息,还涵盖了图表和公式等非文本元素,形成一个全方位的多模态知识体系。目前公益学术平台(PubScholar)已归集1.8亿条文献元数据,逾8065万篇完整的文献全文,为科研人员提供了丰富的研究素材和知识支持。

二是突破关键技术研发科技文献人工智能引擎(SciAIEngine)。 提出了掩藏句子模型(Masked Sentence Model)与两阶段方案实现文本中的知识抽取,基于层次分类器集群实现千级类目中图法分类,通过嵌入词典和词性特征实现关键词识别,基于小样本数据利用半监督迭代学习等技术实现命名实体识别。利用这些创新技术,提升文本挖掘能力,研发科技文献人工智能引擎(SciAIEngine)。形成一系列可供扩展应用的软件、数据、解决方案和工具集,并提出了一套从科技文献中挖掘领域知识与科学数据的流程方法。
三是深度挖掘科技文献内容。 利用科学人工智能引擎对优选文献进行深度挖掘,提取包括关键科学数据、实验结果等硬信息,提取理论框架、研究方法等软知识。通过深度挖掘科技文献的专业领域本体知识、科学数据、观点倾向等科技文献内容,建立细粒度科技文献内容与句子、段落、图表、全文之间的循证关系,支持文献内容溯源。将细粒度知识与科学数据进一步融合、精选、对齐、补齐,构建高质量语料库、专业化领域知识本体库、适用人工智能的科学数据集和研究观点倾向库。当前已支持上海药物所从文献中挖掘药物靶标数据,支撑新药研发;与西南交大合作挖掘二维材料属性数据,赋能材料研发;与东北地理所合作挖掘木质纤维素生物降解知识,助力黑土地生物质高效利用。
四是建设科技文献大模型。 基于专业化领域知识本体库、适用人工智能的科学数据集、研究观点倾向库构建支撑智能科研(AI4S)的科技文献知识底座,支持AI4S模型的训练,为AI4S智能模型假设的提出、预测的验证和推理的监督提供知识基础。与头部人工智能企业合作,集成知识图谱、语义搜索等功能,打造支持智能化科研的解决方案。同时开发医学、化学领域的垂直大模型,为科技创新提供知识数据支持。其中,科技文献大模型提高论文调研效率10倍以上,论文研读有效率超90%。
图1 AI4S知识底座

图2 PubScholar公益学术平台

案例十四:工程科技数据融合 加速工程技术创新

高质量数据是开展工程科技战略咨询不可或缺的基石。然而,工程科技领域的数据往往零散无序,数据源壁垒高筑,信息孤岛林立,数据难以互联互通。为此,中国工程院战略咨询中心联合浪潮软件科技有限公司汇聚和整合工程科技领域数据资源,实现跨领域数据融合和资源共享,促进知识倍增效应,为科技战略咨询、工程科技创新和国际交流合作提供信息支撑和知识服务。

图1 知识中心基础底座

一是持续推进数据资源汇聚整合。 持续推动工程科技领域“元数据海”及特色资源建设,汇聚工程科技能源、交通、航天、化工、信息技术、海洋、地质、气象等30多个专业领域数据资源,工程科技领域一级学科覆盖率达100%,二级学科覆盖率达90%,数据总量超过72亿条,资源体量100TB。基于工程科技领域多源异构数据融合的大数据存储和处理技术搭建了资源汇聚加工的技术环境和数据采集、治理加工工具,支撑了知识服务搜索引擎、智库研究、技术洞察与趋势分析等应用场景,形成了一套科学的资源管理体系,推进生态、气象、环境、水利等跨领域基于地理和机构等维度的知识融合。

二是建设高价值特色数据资源。 在数据治理的基础上建立了统一知识图谱构建、人工智能开发服务、技术洞察及趋势分析、词表集成等能力,为数据挖掘分析、知识关联发现提供技术和能力保障。构建工程科技专家库、机构数据库、战略咨询资源库、学术会议资源库等8个主题库,基于知识组织与知识计算等前沿技术对咨询报告等资源深度加工,形成特色数据资源。

三是实施全面的数据安全控制措施。 依托知识中心的数据安全管理规范,对数据资源处理流程实行端到端的监控;依据数据资源的分类分级管理制度,实行差异化管理策略,对数据进行分类存储,并对敏感信息采取加密和脱敏处理。此外,构建了数据缓冲区,利用大数据批量标注技术、内容安全审核API同时结合人工复审的多层防护机制,建立健全数据安全保障技术体系。

四是整合多元生态打造精品化知识服务。 聚焦国家战略和特定用户场景,利用已汇聚的海量数据资源,结合人工智能、大数据挖掘等技术,开发系列精品知识服务产品,建成了多学科融合的工程科技大数据服务平台。此平台包含服务于高端智库、科研人员和社会公众的多样化工具和专题,如智库支持系统、全球项目库、知领战“疫”系列等。这些知识产品广泛应用于图书馆联盟、高校及机构中,惠及科技界,形成了全面而深入的服务生态。

目前已汇聚工程科技30多个专业领域的数据资源,覆盖工程科技领域全部一级学科,满足高端智库咨询研究工作所需。累计为100多个国家重大项目与工程、数十家企业、科研机构与地方政府提供了数据支持、决策支撑服务,为全国2000余家高校、130余家科研单位、60余个地方图书馆的科技工作者提供数据和知识服务。联盟式知识中心建设为推动我国工程科技领域大数据共建共享、行业和地方大数据系统建设提供了有益经验。


图2 知识中心门户

案例十五:数据赋能稀贵金属产业发展

云南是我国稀贵金属资源的重要富集地,但因受到技术瓶颈制约,相关矿产开发产业发展相对滞后。云南省科学技术院以科研数据深度利用作为破局的关键手段,启动实施稀贵金属材料基因工程,体系化推动相关计算、实验数据的采集与整合,建成内容完整的稀贵金属材料专业基础数据库和系列典型材料专用数据库,发展多方协同的一体化材料数据研发应用平台,精准指导技术研发,优化生产流程,有效支撑稀贵金属产业技术创新。

图1 数据赋能稀贵金属材料产业发展流程架构


一是探索科研新范式。 携手贵金属集团、云锡、云锗等行业领军企业,联合清华大学、上海大学、美国宾夕法尼亚州立大学、日本国立物质材料研究所等30余家终端用户及国际一流科研机构,集结跨越材料科学、物理学、化学等领域的400多位跨学科研发与管理精英针对关键难题展开集中攻坚,构筑了从“创新平台搭建—精英团队聚合—项目统一调度—基础理论探索—核心技术攻破—工程实践应用”的全链路创新体系。项目团队依托拥有1.54万计算核心的高性能计算平台,运用机器学习等人工智能技术,对海量稀贵金属材料数据进行深度建模分析,极大地加速了新材料的研发进程。与传统的试错法相比,这种创新技术路径将新材料的研发周期从5年大幅缩减至2年,研发成本降低80%以上,显著提升了稀贵金属材料研发的效率与经济性。

图2 科研新范式指导稀贵金属产品研发
二是以科学数据支撑技术创新。 建成金、银、铂、钯等11类稀贵金属新材料的基础参数数据库和汇聚计算、实验、生产加工、服役评价数据的系统性稀贵金属材料专用数据库,总数据量达到7900万条。搭建稀贵金属材料基因工程总控平台,对计算/表征平台、数据管理平台、数据应用平台进行集成管理、资源的协同共享、数据的可视化分析。配套研发多种包含分布式存储、挖掘分析、交互协同等重要功能的材料基因工程大数据技术。

图3 科学数据支撑贵金属技术创新

三是加强科学数据安全合规管理。 建立网络安全保障体系,完善科学数据管控、属性管理、身份识别、行为追溯、黑名单等管理措施,定期维护数据库系统安全,健全安全防护体系。开发内外网数据同步、多用户高效入库的单向控制传输技术,解决外部数据流转的安全、效率及存储保密问题。基于《材料基因工程数据通则》,建立了8种材料的元数据标准和数据模板,实现稀贵金属材料全数据链条管理。自主研发了贵金属材料数据格式和搜索技术,支持大批量数据搜索。独创了secret/key数据库数据分享,每个用户可创建专属密钥,并配置可获取的数据范围。
四是推动科学数据有序开放共享。 以“稀贵金属材料基因工程数据一体化开发服务平台”为数字基座,联合新材料研发机构组建数据开发利用联盟,建立集约统筹的数据融通共享与权益互惠机制。强化统筹授权使用和管理,推进互联互通,打破“数据孤岛”,探索制定数据共享规范,建立基于区块链技术的数据共享平台,形成具有云南特色的稀贵金属数据共享共用的制度体系。
图4 稀贵金属材料数据一体化开发服务平台整体框架

2018年以来,稀贵金属材料基因工程已服务云南贵金属集团、云南锡业、中铜集团、云南钛业、云南锗业、中宣液态等龙头企业,支撑新建和升级15条示范线,加速了新材料产业从特色产业向支柱产业转变。开发半导体化合物用高纯铟(7N)、6英寸空间太阳能电池用锗单晶、热控与能源用液态金属导热膏和导热片、高性能环保锡基阻燃剂、海洋和舰船、石油工程用高耐蚀钛合金等国际国内领先的产品。带动企业研发投入5.6亿元,产生13.88亿元新增产值,新增利润2580万元,新增税金993万元。


案例十六:汇聚优质文物数据资源 加速文化传播和文创产业发展

历史文化遗产是中华优秀传统文化的重要组成部分,蕴含着中国智慧与中国精神。当前,文化遗产行业存在数据资源供给不足,大量优质的文化遗产数据资源难以有效利用等问题。故宫博物院推出了文物数据资源平台“数字文物库”,推动更多优质的数字文化资源开放共享,拓展文物数据资源跨行业应用场景,为出版、教育、展览等行业赋能,加速文化传播和创意产业发展。

一是采集汇聚文物数据资源。 利用超高清二维数字影像、三维数字重建、虚实融合视音频采集等,对文物进行数字化采集,形成文物高清影像等数据资源。通过机器自动标注与人工校对结合的方式,从物理属性、历史背景、艺术特征等方面对文物数字资源进行多维度、多层次标注,将原本分散、单一维度的数据资源链接成高度关联、多维度的知识网络,不仅优化了数据供给的质量和可用性,也将文物数字资源转化为可深度应用的标准化数据资源。构建文物数据资源平台“数字文物库”,汇集所有文物基础信息、数字影像等数据资源,对外可提供186万余件院藏珍贵级文物基本信息服务,公布了超10万件珍贵级文物高清数字影像。

二是强化文物数据安全治理。 建立数据质量管理体系,对文物数据在生命周期内全方位进行管理。在资源管理系统统一存储,防止数据从采集汇聚过程中流失。制定数据传输规范,将原始文物数据资源存储在内网,并与外网隔离,经过数据加工后,通过单向推送方式输送到外网云存储空间,形成数据资源库。

三是拓展文物数据应用场景。 通过授权使用的方式,支持用户利用故宫文物数据进行融合创新,打造图书出版、文创产品研发、数字展览等应用场景,进一步释放文物价值。每年完成《故宫日历》《故宫万象》等近百种特色图书出版发行,围绕“故宫中国节”“宫囍龙凤呈祥”“金榜题名”等主题研发文具、玩具、首饰、礼品等多品类文创新品超过1300多种,打造“悦读故宫”展、“画游千里江山——故宫沉浸艺术展”等对外文化创意展览、数字展览近10项,观众参与度达到百万级,形成超过亿元产值的文化创意产业规模。

图 文物数字资源平台 “数字文物库”

案例十七:数据资源共享 助力文物保护、艺术传承、文化推广

敦煌石窟文化遗产是世界独一无二的文化宝藏,对历史、宗教、地理、民族、美术等都有重要研究价值。为推动敦煌石窟文化资源高效共享和广泛利用,敦煌研究院系统梳理各类文物数据资源,打造了数据资源共享平台“数字敦煌·开放素材库”,利用区块链、数字水印等版权保护技术,创新文物数据资源开放、共享、共创模式,助力提升敦煌石窟保护、艺术传承及文化推广。


一是整合制作文物数据资源素材。 敦煌研究院应用多图像三维重建技术,对大遗址、洞窟结构、彩塑以及壁画进行数字化采集,形成7处大遗址、250个洞窟结构和60余身彩塑的三维重建数字档案,以及180多个洞窟壁画数字化成果。依托“数字敦煌”平台及敦煌石窟文物数据管理平台,应用大数据、人工智能、知识关联、质量增强等技术,整合热点文物数据资源,对“数字敦煌”成果进一步加工处理,分类梳理制作形成壁画专题、元素、线描稿、艺术摄影、藏经洞文献、创意内容等6500余份高清数据素材,汇聚至“数字敦煌·开放素材库”平台。

二是健全文物数据安全保障机制。 通过建立数据安全体系,对数据生产流程追踪、数据传输校验、数据存储监控、文件备份及容灾系统建设等,保障文物数据全生命周期安全。在文物数据应用流通过程中,利用区块链、数字水印等技术,完成数据资源的版权保护和安全审核;通过与用户签订电子合同的方式,授权用户安全合规使用平台数据资源;通过引进专业律师团队,解决数据资源确权、授权和二次创作维权问题。

三是创新文物数据资源共享共创模式。 将开放素材分为公益用途、商业用途两种类别,鼓励用户利用素材进行二次创作,收益按照合同约定比例通过平台分账系统自动分账,拓宽了艺术创作领域,增强了艺术创作积极性,促进了文物数据资源的融合创新与聚合增值。

数字敦煌·开放素材库

“数字敦煌·开放素材库”自2022年12月上线以来,访问量超过420万人次,提高了敦煌文物和艺术作品的传播影响力,订单超过16000单,素材下载量超过22000次,拓展了文物数据流通使用范围,增强了文物数字化保护的可持续发展能力。
案例十八:文旅数据共享 提升旅游目的地影响力

文旅产业数字化是产业转型升级的重要路径,有利于优化服务和提升旅行体验。甘肃省文化和旅游厅整合公安、交通、民航等多源数据,建设了甘肃文旅大数据交换共享平台,为用户提供客流分析、景区监测、智能导游等服务,推动旅游数据要素流通与价值释放,为文旅产业转型升级提供了数据支撑和决策依据,促进文旅产业提质增效、高质量发展。

一是整合汇聚多源异构数据资源。 横向上,通过交换共享的方式整合相关部门客流脱敏数据、高速公路车辆脱敏数据;通过项目建设方式获取景区视频监控数据、景区分时预约数据和铁路客运数据等;通过网络数据采集的形式获得游客分享、网络讨论等数据。纵向上,通过政务数据共享交换联通各市州区县文旅相关数据。目前,平台实现全省文旅数据跨部门、跨层级融合共享,日均处理数据7亿条,存储数据40GB。
二是加强数据安全与隐私保护。 平台系统部署在甘肃省政务云平台上,已完成应用上云,通过信息安全等级保护测评三级认证。平台系统安全防护使用云服务商提供的安全资源池,包括防火墙、入侵防御系统、堡垒机、外网日志审计等,并定期派专人进行安全漏洞风险排查、日志审计风险排查和安全功能监测。同时甘肃省文旅厅成立网络安全领导小组,制定信息系统管理制度,建立由总体方针、安全策略、管理制度、操作规程等构成的网络安全管理制度体系,保障数据流通过程中的安全性和隐私性。






请到「今天看啥」查看全文