专栏名称: 微软亚洲研究院

专注科研18年，盛产黑科技

数据智能与计算机图形学领域2019推荐论文列表

微软亚洲研究院 · 公众号 · AI · 2020-01-08 19:53

正文

数据智能

1. Data-anonymous Encoding for Text-to-SQL Generation

论文链接： https://www.microsoft.com/en-us/research/publication/data-anonymous-encoding-for-text-to-sql-generation/

在跨领域 Text-to-SQL 研究中一个重要的问题是识别自然语言语句中提到的列名、表格、及单元格的值。本文中提出了一种基于中间变量和多任务学习的框架，尝试同时解决表格实体识别和语义解析问题，取得了良好的效果。论文在 EMNLP 2019 会议发表。

2. Towards Complex Text-to-SQL in Cross-domain Database

论文链接： https://www.microsoft.com/en-us/research/publication/towards-complex-text-to-sql-in-cross-domain-database-with-intermediate-representation/

计算机的可执行语言（例如 SQL 语句与存储结构紧密相关）与自然语言存在不匹配问题，给复杂问题的语义解析带来了困难。为了解决这个问题，论文中设计了一种中间语言。先将自然语言转换成中间语言，再将中间语言转换成 SQL，可以提高语义解析的准确率。该论文已在 ACL 2019 会议发表。

3. Leveraging Adjective-Noun Phrasing Knowledge for Comparison Relation Prediction in Text-to-SQL

论文链接： https://www.microsoft.com/en-us/research/publication/leveraging-adjective-noun-phrasing-knowledge-for-comparison-relation-prediction-in-text-to-sql/

在自然语言理解中，知识的运用非常重要。本文以 Adjective-Noun Phrasing Knowledge 为切入点尝试在 Text-to-SQL 中运用语言相关知识来提高语言理解的准确率。论文在 EMNLP 2019 会议发表。

4. FANDA: A Novel Approach to Perform Follow-up Query Analysis

论文链接： https://www.microsoft.com/en-us/research/publication/fanda-a-novel-approach-to-perform-follow-up-query-analysis/

在多轮式对话中，对话语句中经常存在省略或指代，需要根据上下文来理解当前语句。本文分析总结了在对话式数据分析中普遍出现的省略或指代现象，并提出了将当前语句补充完整的方法。论文发表在 AAAI 2019。

5. A Split-and-Recombine Approach for Follow-up Query Analysis

论文链接： https://www.microsoft.com/en-us/research/publication/a-split-and-recombine-approach-for-follow-up-query-analysis/

本文中提出了一个处理上下文的 split-recombine 框架，能够用来有效处理对话语句中经常存在上下文省略或指代问题。这个框架既可以用于将当前语句补充完整（restate），也可以直接生成 logic form（例如SQL）。论文发表在 EMNLP 2019.

6. QuickInsights: Quick and Automatic Discovery of Insights from Multi-Dimensional Data

论文链接： https://www.microsoft.com/en-us/research/uploads/prod/2019/05/QuickInsights-camera-ready-compliant.pdf

该论文创新性地提出了多维数据中洞察 (insights) 的一种普遍适用的抽象定义，并系统化地提出了面向大规模多维数据的有效的洞察挖掘算法。文章发表在 SIGMOD 2019。相应技术从2015年起转化到微软 Power BI，Office 365 等产品中。

7. TableSense: Spreadsheet Table Detection with Convolutional Neural Networks

论文链接： https://www.microsoft.com/en-us/research/uploads/prod/2019/01/TableSense_AAAI19.pdf

文章提出的基于深度学习模型的 TableSense 技术，可对电子表格进行区域检测和表格结构理解，并将其转换为结构化的多维数据进行自动分析。这项技术已转化到微软的 Office 365 产品中，随 Ideas in Excel 功能全面上线。文章发表在 AAAI 2019。

8. Text-to-Viz: Automatic Generation of Infographics from Proportion-Related Natural language Statements

论文链接： https://www.microsoft.com/en-us/research/publication/text-to-viz-automatic-generation-of-infographics-from-proportion-related-natural-language-statements/

该论文发表在 IEEE VIS 2019，首创了由自然语言自动生成数据信息图（Infographics）的技术。该技术使人们能够非常容易的获得大量数据信息图的设计，用于加强数据故事的表达。

9. DataShot: Automatic Generation of Fact Sheets from Tabular Data

论文链接： https://www.microsoft.com/en-us/research/publication/datashot-automatic-generation-of-fact-sheets-from-tabular-data/

该论文发表在 IEEE VIS 2019，提出了一种从数据表格出发自动生成由多个数据信息图组合而成的数据海报的技术。

10. Towards Automated Infographic Design: Deep Learning-based Auto-Extraction of Extensible Timeline

论文链接： https://www.microsoft.com/en-us/research/publication/towards-automated-infographic-design-deep-learning-based-auto-extraction-of-extensible-timeline/

该论文提出了一种自动从图片中抽取数据信息图模板的技术。利用计算机视觉技术，将时间轴的设计图片分解成多个视觉元素并重新组合，使可视化时间轴设计图片的重用成为了可能。该论文发表在 IEEE VIS 2019。

11. Visualization Assessment: A Machine Learning Approach

论文链接： https://www.microsoft.com/en-us/research/publication/visualization-assessment-a-machine-learning-approach/

该论文发表在 IEEE VIS 2019，探索了自动评估可视化图片特性的方法，比如记忆度、美观度，让机器学习的算法在可视化的生成、推荐中发挥作用。

12. Supporting Story Synthesis: Bridging the Gap between Visual Analytics and Storytelling

论文链接： https://www.microsoft.com/en-us/research/publication/supporting-story-synthesis-bridging-the-gap-between-visual-analytics-and-storytelling-2/

该论文定义了一个新的故事生成框架，将数据分析到结果展示的过程抽象成普遍的故事生成流程。该框架支持交互式地从复杂的可视分析结果中生成可以让普通读者理解的故事。论文发表在 TVCG 2019。

13. Cross-dataset Time Series Anomaly Detection for Cloud Systems

论文链接： https://www.microsoft.com/en-us/research/publication/cross-dataset-time-series-anomaly-detection-for-cloud-systems/

文章提出了基于迁移学习和主动学习的跨数据集异常检测框架，可以有效地在不同时间序列数据集之间进行迁移，只需要1%-5% 的标注样本量即可达到高精度检测。文章发表在系统领域顶级会议 USENIX ATC 2019 上。

14. Robust Log-based Anomaly Detection on Unstable Log Data

论文链接： https://www.microsoft.com/en-us/research/publication/robust-log-based-anomaly-detection-on-unstable-log-data/

文章提出了基于深度学习技术的模型 LogRobust，可有效克服日志不稳定问题，在快速迭代的实际工业数据中取得了出众的效果，该研究发表在了软件工程领域顶级会议 FSE 2019。

15. An Intelligent, End-To-End Analytics Service for Safe Deployment in Large-Scale Cloud Infrastructure

论文链接： https://www.microsoft.com/en-us/research/publication/an-intelligent-end-to-end-analytics-service-for-safe-deployment-in-large-scale-cloud-infrastructure/

该文章提出了时空相关性模型，在时间和空间的双重维度上对比故障前后的系统状态，为故障诊断提供线索，该模型在安全部署中取得了很高的准确率，研究成果将发表在系统领域顶级会议 NSDI 2020上。

16. Outage Prediction and Diagnosis for Cloud Service Systems

论文链接： https://www.microsoft.com/en-us/research/publication/outage-prediction-and-diagnosis-for-cloud-service-systems/

该文章提出了一种智能的大规模中断预警机制 AirAlert，AirAlert 收集整个云系统中的所有系统监控信号，采用鲁棒梯度提升树算法做预测，并利用贝叶斯网络进行诊断分析。相关研究短文发表在 WWW 2019。

17. Prediction-Guided Design for Software Systems

论文链接： https://www.microsoft.com/en-us/research/publication/prediction-guided-design-for-software-systems/

文章提出了智能缓冲区管理方法，基于预测导向（Prediction-Guided）框架，以机器学习预测引擎为核心，可监控集群已部署的工作负载与平台操作，对这些负载在发生故障的概率和新的容量增长需求进行预测，动态调整预留缓冲区。该方法已成功集成到微软 Azure 中，提高了容量配置的稳健性，减少了巨大的成本支出。相关研究将在 AAAI 2020 Workshop 发布。

18. An Empirical Investigation of Incident Triage for Online Service Systems

论文链接： https://www.microsoft.com/en-us/research/publication/an-empirical-investigation-of-incident-triage-for-online-service-systems/

该文章基于微软 20 个大型在线服务系统展开实例研究，发现错误的故障分派会导致额外的时间开销，进而验证了已有软件 Bug 分派算法在故障分派场景下的效果。这是首次研究故障分派在工业大型在线服务系统中的实践，相关研究发表在 ICSE SEIP 2019。

19. Continuous Incident Triage for Large-Scale Online Service Systems

论文链接： https://www.microsoft.com/en-us/research/publication/continuous-incident-triage-for-large-scale-online-service-systems/

该文章提出一种基于深度学习的自动化连续故障分派算法 DeepCT。 DeepCT 结合了一个新的基于注意力机制的屏蔽策略、门控循环单元模型和改进后的损失函数，可以从工程师对问题的讨论中逐步积累知识并优化分派结果。相关成果发表在 ASE 2019。

20. Neural Feature Search: A Neural Architecture for Automated Feature Engineering

论文链接： https://www.microsoft.com/en-us/research/publication/neural-feature-search-a-neural-architecture-for-automated-feature-engineering/

文章提出了神经特征搜索（Neural Feature Search，NFS），基于递归神经网络（Recurrent Neural Network，RNN）的控制器，通过最有潜力的变换规则变换每个原始特征，取得了优于现有自动特征工程方法的性能。该成果已在在数据挖掘领域会议 ICDM 2019 发表，在自动特征工程研究领域确立了新的技术水平。

图形学

21. Repairing Man-Made Meshes via Visual Driven Global Optimization with Minimum Intrusion

论文链接： http://haopan.github.io/mesh_repair.html

文章提出的方法修复了 ShapeNet、ModelNet 等大型 3D 数据集中的模型缺陷。该文章发表在 SIGGRAPH Asia 2019。

22. Learning Adaptive Hierarchical Cuboid Abstractions of 3D Shape Collections

论文链接： https://isunchy.github.io/projects/cuboid_abstraction.html

数据智能与计算机图形学领域2019推荐论文列表

正文

请到「今天看啥」查看全文