专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
黄建同学  ·  2025 AI ... ·  19 小时前  
爱可可-爱生活  ·  【五个Jupyter实用技巧】1. ... ·  昨天  
宝玉xp  ·  Deep Research ... ·  2 天前  
爱可可-爱生活  ·  【[1.5k星]Calibre-Web-Au ... ·  3 天前  
爱可可-爱生活  ·  晚安~ #晚安# -20250201224216 ·  4 天前  
51好读  ›  专栏  ›  机器学习研究会

腾讯数平精准推荐 | OCR技术之检测篇

机器学习研究会  · 公众号  · AI  · 2018-03-17 22:00

正文


在过去的数年中,腾讯数平精准推荐(Tencent-DPPR)团队一直致力于实时精准推荐、海量大数据分析及挖掘等领域的技术研发与落地。特别是在广告推荐领域,团队自研的基于深度在线点击率预估算法及全流程实时推荐系统,持续多年在该领域取得显著成绩。而在用户意图和广告理解上,借助于广告图片中的文本识别以及物体识别等技术手段,可以更加有效的加深对广告创意、用户偏好等方面的理解,从而更好的服务于广告推荐业务。


OCR(Optical Character Recognition, 光学字符识别)是指对输入图像进行分析识别处理,获取图像中文字信息的过程,具有广泛的应用场景,例如场景图像文字识别、文档图像识别、卡证识别(如身份证、银行卡、社保卡)、票据识别等。而场景文字识别(Scene Text Recognition,STR) 不需要针对特殊场景进行定制,可以识别任意场景图片中的文字(如图1所示)。相较于传统OCR,场景图片中的文本检测与识别面临着复杂背景干扰、文字的模糊与退化、不可预测的光照、字体的多样性、垂直文本、倾斜文本等众多挑战。

 

图1 场景图片示例

 

场景文字识别这一问题在15~20年前就出现了相关的研究工作[1-3],它与传统OCR的重要区别是需要将照片或视频中的文字识别出来,其主要分为两个步骤:

  • 对照片中存在文字的区域进行定位(Text Detection),即找到单词或文本行(Word/Line-level)的边界框(Bounding Box);





    请到「今天看啥」查看全文