序:本文的知识点可用于分析图片的文本,应用场景像分析竞争对手的营销文案,检查自己的营销文案等。
Power Query作为BI内置的一个组件,不止用于数据清洗和获取。
图像识别的人工智能也已经存在,运营&推广等岗位人员对图片上的文案识别也有诉求。
实现图片上的文案识别,市面上有很多软件可以实现;本文将介绍使用Power Query实现简单的OCR(Optical Character Recognition)文字识别。
先找到要识别文字的图片,可以是类似钻展图,直通车图,主图或者是详情页图片。
把图片链接复制粘贴到工作表左侧的表格,在右侧表格单元格内右击进行刷新:
导入的图片
识别结果
再导入一张图片
识别结果
可以发现此方法只支持常用字体的识别,非常用字体可能识别不出来。
由于目前市面上开放的免费接口的限制,所以识别率不是太好。如果要识别率高的话,可以使用付费的接口,识别率可以达90%及以上。
以下是此应用的实现M代码
let
源 = Excel.CurrentWorkbook(){[Name="表1"]}[Content],
更改的类型 = Table.TransformColumnTypes(源,{{"图片地址", type text}}),
已添加自定义 = Table.AddColumn(更改的类型, "自定义", each Json.Document(Web.Contents("http://aidemo.youdao.com/ocrapi",[Headers=[#"Content-Type"="application/x-www-form-urlencoded; charset=UTF-8"],Content=Text.ToBinary("imgUrl="&Uri.EscapeDataString([图片地址]))]))),
#"展开的“自定义”" = Table.ExpandRecordColumn(已添加自定义, "自定义", {"lines"}, {"lines"}),
#"展开的“lines”" = Table.ExpandListColumn(#"展开的“自定义”", "lines"),
#"展开的“lines”1" = Table.ExpandRecordColumn(#"展开的“lines”", "lines", {"words"}, {"words"})
in
#"展开的“lines”1"
此知识点可用于竞争对手分析、营销分析、极限词自检;对以往文字识别,页面进行扫描,用软件分解再查找。
作者简介:拾柒,在零一师门排行17,4年电商从业经验,服务过国内知名品牌和多家电商企业。
版权说明:零一公众号内容均为原创,如需转载请联系。
拓展阅读(
点击即可浏览
)
从0开始教你做数据分析-01
从0开始教你做数据分析-02
从0开始教你做数据分析-03
数据化决策之关联营销挖掘
零一原创出版物