专栏名称: 商业智能研究
帆软旗下机构「帆软数据应用研究院」 专注于企业数据化应用、大数据BI技术和理论观点研究,向业界输出前沿的研究与洞察,帮助企业把握商业智能趋势,提升管理与商业战略认知,让数据成为生产力。
目录
相关文章推荐
庞门正道  ·  她的画一定会被喵星人通缉:) ·  昨天  
字体设计  ·  调皮的动态文字 ·  昨天  
庞门正道  ·  这么晚了,吃点? ·  3 天前  
ZaomeDesign  ·  每日灵感丨二月二十日 ·  2 天前  
字体设计  ·  本周三款免费字体来了 ·  4 天前  
51好读  ›  专栏  ›  商业智能研究

什么是结构化、半结构化和非结构化数据?

商业智能研究  · 公众号  ·  · 2024-11-10 09:00

正文

直播预告

产品 大讲堂开课了-教你 系统数据集成与分析

11月15号 16:0 0帆软小程序直播间

👨‍🏫 直播主题:《 系统数据集成与分析—— 基于简道云的数据集成方案分享》

🔥 直播亮点:
  • 思路:简道云数据如何更好发挥价值
  • 方法:真实高效的数据对接场景和方案

  • 案例:简道云深度使用企业数据集成经验


👊 更多精彩,尽在帆软小程序!点击链接右下角即可预约观看

01

什么是结构化、半结构化和非结构化数据?

①结构化数据 :指关系模型数据,即以关系数据库表形式管理的数据,结合到典型场景中更容易理解,比如企业ERP、OA、HR里的数据。

②非结构化数据 :指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。如word、pdf、ppt及各种格式的图片、视频等。

③半结构化数据 :指非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档、E-mail等;

02

延伸问题:要如何处理这三种异构数据?

1、针对多元结构化数据的融合,主要关注在数据的ETL处理以及时效性上:

①表结构不同,需 要做到不同类型的字段映射

②假如要新增表字段的时候,需 要新增列

③若有表字段需要进行二次处理规范,需要支持字段转换,比如公式或其他

④新增表设计时, 需要保证三大范式,这里就不展开讲了,可参考: 数据库三大范式

⑤数据同步的时效性,例如实时同步、半小时一次、或者一天一次、或者说是需要实时同步融合,这个要根据具体业务场景来确认。

2、针对半结构化、非结构化数据,因为数据分散,缺乏统一管理,需要借用专业工具

目前有两种方式来处理半结构、非结构化数据:

①提取半结构、非结构化数据中的关键信息,到结构化数据中进行二次利用,比较好处理的是半结构化(json、xml)、excel、csv,因为这种数据的结构比较统一。

②向word、PDF这种文件提取关键信息,假如是单个文本的话,市面上有些工具可能可以实现,但假如是大批量的话,可能就需要通过程序,去自定义一些正则表达式,去进行关键信息的提取。这种一般来说,因为格式不一致,以及用途不一致,所以程序自定义的比较多。

针对这种的话,会综合考虑数据价值和投入产出比,因为这部分的数据处理较为复杂。







请到「今天看啥」查看全文


推荐文章
庞门正道  ·  她的画一定会被喵星人通缉:)
昨天
字体设计  ·  调皮的动态文字
昨天
庞门正道  ·  这么晚了,吃点?
3 天前
ZaomeDesign  ·  每日灵感丨二月二十日
2 天前
字体设计  ·  本周三款免费字体来了
4 天前
幽默与笑话集锦  ·  神回复笑话:能这样作弊,其实你不是学渣!
7 年前
传感器技术  ·  最深入最经典的电容剖析
7 年前
地心引力工场  ·  如何优雅地在朋友圈度过七夕?
7 年前
e公司官微  ·  调味品、喜诗糖果、高端白酒及其他
7 年前