基于Spark的并行分布式过程挖掘算法

doi:10.13196/j.cims.2019.04.001

计算机集成制造系统 ›› 2019, Vol. 25 ›› Issue (第4): 791-797.DOI: 10.13196/j.cims.2019.04.001

• 当期目次 • 下一篇

基于Spark的并行分布式过程挖掘算法

胡小强¹,吴翾²,闻立杰¹⁺,王建民¹

1.清华大学软件学院
2.吉林大学计算机科学与技术学院

出版日期:2019-04-30 发布日期:2019-04-30
基金资助:
国家重点研发计划资助项目(2016YFB1001101);国家自然科学基金资助项目(61472207,71690231);工业大数据系统与应用北京市重点实验室资助项目;北京信息科学与技术国家研究中心资助项目。

Parallel distributed process mining algorithm based on Spark

Online:2019-04-30 Published:2019-04-30
Supported by:
Project supported by the National Key Research and Development Plan,China(No.2016YFB1001101),the National Natural Science Foundation,China(No.61472207,71690231),the Beijing Key Laboratory for Industrial Big data System and Application,China,and the BNRist,China.

摘要/Abstract

摘要： 针对传统的过程发现算法对大规模事件日志挖掘效率低的问题,提出一种利用Spark集群进行加速过程挖掘的方法。该方法主要针对基于日志活动关系的过程挖掘算法,对抽取活动关系阶段进行加速。通过并行分布式抽取活动关系,将事件日志转化为活动关系矩阵。然后利用关系矩阵,按算法原本的后续步骤,挖掘出过程模型。利用Spark实现分布式α-Mine算法和分布式Flexible Heuristic Miner算法,结果表明:所提方法在时间消耗上优于目前最好的算法,挖掘效率明显提升。

关键词: 过程挖掘算法, Spark集群, 大数据, 并行分布式化

Abstract: Aiming at the problem that the traditional process discovery algorithms had low efficiency for mining models from large-scale event log,a method of using Spark clusters to conduct parallel distributed process mining was proposed.For the process mining algorithm based on the log activity relationship,the method could accelerate the extraction of activity relationship.Through parallel distributed extraction of activity relationships,the event log was transformed into an activity relationship matrix.By using the relation matrix,the process model was mined.The distributed-Mine algorithm and the distributed flexible heuristic miner algorithm were implemented by Spark,and the result showed that the proposed method leaded the current best algorithm implementation in terms of time consumption,and the mining efficiency was improved significantly.

Key words: process mining algorithm, Spark clusters, big data, parallel distribution

中图分类号:

TP301

胡小强,吴翾,闻立杰,王建民. 基于Spark的并行分布式过程挖掘算法[J]. 计算机集成制造系统, 2019, 25(第4): 791-797.

[1]	王誓伟,徐晓斌,梁中军. 基于城市计算的分布式异常数据分级过滤算法[J]. 计算机集成制造系统, 2021, 27(9): 2525-2531.
[2]	刘道元,郭宇,黄少华,方伟光,杨能俊. 基于DBN-DNN的离散制造车间订单完工期预测方法[J]. 计算机集成制造系统, 2020, 26(9): 2445-2452.
[3]	汤洪涛,费永辉,陈青丰,詹燕,鲁建厦,李晋青. 基于工业大数据的柔性作业车间动态调度[J]. 计算机集成制造系统, 2020, 26(9): 2497-2510.
[4]	汤雅惠,朱锐,李彤,南峰涛,郑明,马自飞. 基于轨迹聚类种群的遗传过程混成挖掘算法[J]. 计算机集成制造系统, 2020, 26(6): 1510-1524.
[5]	杨程,谭昆,俞春阳. 基于评论大数据的手机产品改进[J]. 计算机集成制造系统, 2020, 26(11): 3074-3083.
[6]	景轩,姚锡凡. 大数据驱动的云雾制造体系架构[J]. 计算机集成制造系统, 2019, 25(第9): 2119-2139.
[7]	刘建康,郝尚华,王树华,富宏亚. 数据驱动的数控加工生产线实时监控与优化控制技术框架[J]. 计算机集成制造系统, 2019, 25(第8): 1875-1884.
[8]	王万良,张兆娟,高楠,赵燕伟. 基于人工智能技术的大数据分析方法研究进展[J]. 计算机集成制造系统, 2019, 25(第3): 529-547.
[9]	任明仑,宋月丽. 大数据:数据驱动的过程质量控制与改进新视角[J]. 计算机集成制造系统, 2019, 25(第11): 2731-2742.
[10]	姚锡凡,刘敏,张剑铭,陶韬,蓝宏宇,葛动元. 人工智能视角下的智能制造前世今生与未来[J]. 计算机集成制造系统, 2019, 25(第1): 19-34.
[11]	徐泉,王良勇,刘长鑫. 工业云应用与技术综述[J]. 计算机集成制造系统, 2018, 24(第8): 1887-1901.
[12]	姚艳,曹健,田晓亮. 实时分析工作流调度方法[J]. 计算机集成制造系统, 2018, 24(第7): 1698-1705.
[13]	周佳军,姚锡凡,刘敏,张剑铭,陶韬. 几种新兴智能制造模式研究评述[J]. 计算机集成制造系统, 2017, 23(第3期): 624-639.
[14]	翟丽丽,沃强,张树臣. 制造业大数据联盟资源推送服务算法[J]. 计算机集成制造系统, 2017, 23(第11): 2371-2381.
[15]	朱雪初,乔非. 基于工业大数据的晶圆制造系统加工周期预测方法[J]. 计算机集成制造系统, 2017, 23(第10): 2172-2179.

基于Spark的并行分布式过程挖掘算法

Parallel distributed process mining algorithm based on Spark

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics