【华创金工】科创板招股说明书pdf 解析及估值探讨

华创金工 · 公众号 · · 2019-05-30 17:11

正文

科创板招股说明书 pdf 解析及估值探讨

根据《证券期货投资者适当性管理办法》及配套指引，本资料仅面向华创证券客户中的金融机构专业投资者，请勿对本资料进行任何形式的转发。若您不是华创证券客户中的金融机构专业投资者，请勿订阅、接收或使用本资料中的信息。本资料难以设置访问权限，若给您造成不便，敬请谅解。感谢您的理解与配合。

摘要

科创板“开闸”在即，但相关数据源却并没有很全面，数据都在招股说明书等材料中，但纯粹人工的抽取信息，工作量太大，且也很难完全保证数据的质量。出于对数据的全面与及时性要求，本文提供一种较为完备的从 PDF 中解析表格等相关数据的方案。
我们用招股说明书给出的可比公司，对科创板个股的相对估值进行了梳理。考虑到科创板公司往往处于公司的发展期，可能存在大量的研发费用和销售费用，除了一般的市盈率（PE）估值法，我们另外使用多种估值指标进行估值。
企业价值倍数（EV/EBITDA）剔除掉了计入研发、销售、管理费用的折旧摊销费用的影响，并考虑到了债权人的回报，而企业价值比营收（EV/Sales）进一步剔除了其他费用的影响。我们分别使用市盈率（PE）、企业价值倍数（EV/EBITDA）和企业价值比营收（EV/Sales）三种估值方式对科创板公司估值进行探讨

使用 Python 解析科创板招股说明书

（一） Python 解析 PDF 简介

Python 提供了诸多开源的库来解析 PDF ，但我们首先要明确的是用于解析的 PDF 是文档型的，还是扫描型的。绝大部分库都只能解决文档型的 PDF ，而扫描型的 PDF 保存的实际上就是图片，要解析其中的信息复杂度更高，需要用到 OCR （光学字符识别）技术。 OCR 技术是指将图片的字符形状转变成计算机能识别的文字，其过程包括图像处理、文字特征抽取、数据库对比等流程，技术难度较大，运用场景也更广。而用于解析文档型的 PDF 相对来说比较简单，可以依据 Python 的 open 函数返回的结果进行分析。
科创板招股说明书的 PDF 都是文档型的，一个简单的判别方式，就是看看能否选择到一段文字。 Python 中用于解析文档型的 PDF 主要有 PDFminer 、 PyPDF2 、 PDFrw 等，可以解析扫描型的 PDF 有 OCRmyPDF 等。从 github 上看 PDFminer 是最受欢迎的， star 数最多。并且相关的从 PDF 中提取表格数据的开源库，例如 camelot 、
PDFplumber 都是依赖于 PDFminer 的。由于我们需要的很多财务指标数据、财报数据都是以表格形式展示的，而只使用文本信息用规则或语义分析来提取表格数据，很难保证数据完全准确性，也较难验证。故本文使用 PDF 提取表格相关库来解析文档，出于代码的简洁与可扩展性，本文最终选用 PDFplumber 来解析相关数据。

（二）从 PDF 中抽取表格数据算法简介

无论是 camelot 还是 PDFplumber 库，其算法核心思想均来自于 Anssi Nurminen 的硕士论文《 Algorithmic Extraction of Data in Tables in PDF Documents 》。其主要步骤如下所示：
1. 依据文档字符的位置信息确定横向的边缘与竖向边缘。
2. 考虑边缘的合并与连接。
3. 依据边缘确定交点。
4. 依据交点确定最小的表格矩形，提取出表格的内容。
PDFplumber 依据 PDFminer 返回的边缘信息来进行后面几步的处理，我们用图片来简单的展示这个过程

可以看出 PDFminner 返回的边缘信息比较准确，但第三列头尾的横向边缘并没有识别到。通过 PDFplumber 的算法，我们可以将处于同一水平的横向边缘连接上。

边缘正确了之后，我们可以很快来确定交点，在确定交点的时候，我们要注意做一些合并与去重。因为可能存在距离很近的两条边缘，这样会确定多个交点，我们要首先把距离很近的边缘做一个合并，这在一些表格的边框是一个双横边缘文本框来说很常见。准确的确认了交点之后，我们只需要依据交点的位置信息，找出它们确定的最小的闭合矩形，最后按行提取各个矩形中的信息即得到最后的表格数据。

（三） PDFplumber 的参数扩展以及如何保证数据的准确性

上述展示了一个相对比较顺利的抽取表格数据的过程，但当批量地从 PDF 抽取数据，总会遇到各种各样没考虑到的问题。尽管 PDFplumber 提供了大量的自定义参数，但对于合并和连接并没有区分横边缘与纵边缘，实际上对于实践来说，横向地连接的距离容忍可以设置的很大，因为基本不存在横向的列两个结构完全不同的表的可能。而对于纵向连接需要考虑，一个页面纵向的列多个表格的影响，容忍设置的过大很容易，使得不相关的两个表连接起来。

如上图所示，我们要的财务指标数据在第 4 列又出现了横向边缘有所缺失的情况，我们设置连接距离容忍，但会发现，除了横向的连接，纵向的连接不小心连接到上面的表。

如上图所示，出现这种情况后，会对我们确定的表格产生很大的错误。故本文针对这些情况，在 PDFplumber 的基础上进一步分开横边缘与纵边缘的参数设置，并对纵向边缘的横向合并时设置纵向距离，防止距离很远的纵向边缘在横向合并时还互相受影响。即可以解决如下图所示的问题，合并纵向边缘时，受到上面的纵向边缘的影响，从而影响到了最后确定的表格矩形，对最后提取到的内容可能会缺失重要信息。

如上所示，我们通过参数的进一步扩展，并且在某些参数上放开，在某一些参数上面缩紧，对金融数据表格提取有很好的适用性。
并且对于每一个页面， PDFplumber 借助可视化工具来帮助大家进行调试，只要出现如图 3 的结果，边缘正确、交点正确，那么得到的表格数据必然是正确的，这对我们数据质量是一个很好的把握。我们不必再人工地去验证具体的数据结果，只要验证图片的正确与否。对于我们要提取的表格数据，我们都会把对应的页面图片保存下来，观察我们要提取的数据是否正确，不正确我们要进一步调整参数进行调试。
（四） Python 解析科创板招股说明书数据整体方案简介
对于科创板招股说明书，除了财报数据我们还有诸如可比公司、股权结构、经营分析等等其他的信息。由于 PDF 通常都比较大，招股说明书至少都在 200 页以上。我们给出如下整体的解决方案：
1. 解析各个 PDF 的目录，可以从第二页开始搜索，定位目录的位置，解析目录。因为目录的页面特点非常明显，基本上可以用同一个的正则表达式提取出数据。
2. 依据目录模糊寻找定位财报、财务指标的位置，进行表格提取，并进行验证调试。
3. 依据目录模糊寻找定位其他信息的位置，正则提取句子中的数据或其他数据，进行一些剔除与必要的验证。

科创板公司估值探讨

（一）科创板上市定价规则简介
依据《上海证券交易所科创板股票发行与承销办法》、《上海证券交易所科创板股票发行与承销业务指引》、《上海市首次公开发行股票网下发行实施细则》与《上海市场首次公开发行股票网上发行实施细则》等法律法规的规定。科创板个股上市定价将采取市场化的询价方式定价，不再设置市盈率的限制，直接由网下投资者询价后，发行人依据询价情况来确定发行价。并新加入战略配售、保荐机构跟投、超额配售选择权等制度使得定价更为完善。

可以看出科创板个股申购，对于网下投资者来说关键在于给出合理的价格，价格给高了有被当作最高价部分剔除的风险，价格给低了有可能低于发行价而没法申购到。对于申购到了股票份额的投资者，因为还有战略投资者以及保荐机构子公司跟投与超额配售权制度，我们认为基于上述因素，出现上市就破发的概率很小。主承销商与发行人因为保荐机构子公司跟投制度导致利益有所对峙，并且保荐机构子公司作为战略投资者是有很长的限售期的。所以虽然战略投资者没有定价权，但是主承销商有动力去寻求一个合理的定价，发行价格不能大幅的高于询价的价格基准，但是低于价格基准是完全可以的。
（二）科创板个股估值探讨
科创板个股询价关键在于把握个股的估值，估值是一个很困难的事情，尤其是对于科创板企业，行业发展前景广阔，前期投入大，导致费用过高，盈利偏低且不稳定。传统的市盈率法并太不适用，并且对于不同的行业，也有其自身的估值方法，譬如对于创新药企有针对管线的估值，互联网企业有关注流量的估值。本文不对估值方法做过多的探讨，考虑到科创公司研发费用较高，如图表 8 所示，选用总体来说比较合适科创公司的企业价值比营收（ EV/Sales ）作为主要估值方法，市盈率（ PE ）和企业价值倍数（ EV/EBITDA ）作为辅助，给予科创板个股估值提供一个参考。

截至 2019 月 5 月 17 日，科创板受理申请企业已达 110 家，本文用第二章提到的文本解析方式得到公司资产负债表、主要财务指标以及可比公司等相关数据，结合 Wind 提供的数据。以 2019 年 5 月 17 号的各可比公司的市值和其 2018 年的财务报告，使用企业价值比营收（ EV/Sales ）、市盈率（ PE ）和企业价值倍数（ EV/EBITDA ）对科创板个股进行评估。目前大多数科创板企业在其招股说明书中都有提到相关的可比公司，但也有少部分公司并没有直接的可比公司，或者在 A 股没有可比的上市公司。

对于这些公司，我们没有相关数据故没有对其估值。对于其他公司我们按照刚才的思路，对公司对应的可比公司分别计算它们的企业价值比营收（ EV/Sales ）、企业价值倍数（ EV/EBITDA ）与市盈率（ PE ）。我们首先剔除掉估值指标小于 0 的样本，然后取各个可比公司的中位数作为参考估值。考虑到我们用市场法来估值的前提，在于公司的可类比性，既然公司给出了多个可比公司，那么多个可比公司之间的估值不应该差距太大。故我们设计一个指标来衡量可比公司之间的估值离散程度，若离散程度较高，表明即使是可比公司，对于该细分领域来说，可能估值上也有较大差距；而对于可比公司之间估值离散程度本身较小的情况，我们对目标公司的估值或更有把握。出于去量纲以及考虑极值的影响，我们将估值离散度指标定义为

【华创金工】科创板招股说明书pdf 解析及估值探讨

正文

请到「今天看啥」查看全文