2017
年
3
月
23
日
Science
发表利用
Hi-C
完成传播寨卡病毒和西尼罗病毒的两种蚊虫的
3
条染色体序列的组装
。
2017
年
4
月
2
7
日
Nature
发表利用
Hi-C
完成
大麦基因组的组装,并阐明大麦染色体的空间结构
。
可谓引爆了Hi-C辅助基因组组装的热点.
但是同时我们也可以看出目前Hi-C技术并未形成较为成熟的开源分析软件.小编大体叙述以下见到的三款Hi-C辅助组装的软件:LACHESIS,3d-dna和SALSA。
LACHESIS(https://github.com/shendurelab/LACHESIS)是一个Nature biotechnology发表的Hi-C组装的开篇的软件,相对来说通用性较强,且能组装到染色体水平,大伙想自己组装染色体建议使用此软件。但是他受基因组组装水平影响较大,尤其是在划分群组上如果不采取一定策略容易划分出超大群组;在order上此软件容易出现大片段错误需要人工纠正;此软件也缺少纠错功能,因此在组装之前必须保证scaffold版本基因组具有较高的准确性,方能取得较好的效果。由于作者自发表之后几乎没有再改进此软件,导致使用者直接利用此软件进行组装有时会面临一些准确性的问题;
3d-dna(https://github.com/theaidenlab/3d-dna)是上述发表在Science上的一个软件,该软件具备对基因组进行先纠错再组装的功能(此软件新颖的地方),成功实现了对蚊子和人基因组组装,但对于其他一般基因组组装的通用代码作者仍然在研发中,现在并没有释放出来,目前来看此软件通用性一般。
SALSA(https://github.com/machinegun/hi-c-scaffold)是一个针对三代组装的基因组进行Hi-C辅助组装,提升Scaffold指标(不能获得染色体)的软件。此软件也具备纠错功能,但遗憾的是作者上传的代码存在问题,纠错功能改进的代码迟迟没有进行发布,且此软件外置参数太少,非软件开发人员必须熟悉该软件原理算法相应的进行参数调整才能取得较好的效果。此软件尚未正式发表。
目前国内公司做Hi-C很多,但是需要警惕准确性问题.