专栏名称: LaTeX(微博搜索)
目录
相关文章推荐
财宝宝  ·  市场化的利弊。 ... ·  昨天  
财宝宝  ·  么么哒-20250227110702 ·  昨天  
李白楼语堂  ·  楼面价5305元/㎡,雅塘板块纯住宅地挂牌! ... ·  2 天前  
51好读  ›  专栏  ›  LaTeX(微博搜索)

LaTeX(微博搜索)-20230830-1

LaTeX(微博搜索)  · 微博搜索  ·  · 2023-08-30 00:00

正文

本条微博地址 RubberBunny乳胶邦妮
#RubberBunny# #乳胶时尚# #latex装扮# Cherry倾心乳胶搭配、大神同款套装! 性感、清凉感,我全都要!
本条微博地址 宝玉xp
刚测试了一下Meta AI的 OCR 神器:Nougat,可以轻松将学术 PDF 文档转换为 MultiMarkdown,尤其擅长复杂数学公式。

实测效果并不太理想。

优点:
1. 英文能正常识别
2. 数学公式能识别成LaTeX

缺点:
1. 排版差别比较大
2. 不能保存图片
3. 不支持中文
4. 表格支持不好
5. 速度慢

用的Google Colab,比我想象的耗资源,转换一个PDF论文,用了将近3分钟,期间GPU占用几乎是满的。(参考图1)

我拿斯坦福AI小镇的论文测试的,图2是论文第一页的原始效果。图3是转换后的第一页效果,内容确实挺完整,但是排版就没了,另外目前是不支持图片的。

图四是将其中一页放一起的对比。

图五是中文PDF的效果

公式支持看起来还可以,不过不懂LaTeX,也不知道对不对。(图5)

表格几乎不支持。(图6)

看来还不太可用。

这里是我用的Colab代码和链接,你也可以自己测试
网页链接

项目地址:facebookresearch.github.io/nougat/






请到「今天看啥」查看全文