Computer Integrated Manufacturing System ›› 2024, Vol. 30 ›› Issue (8): 2968-2980.DOI: 10.13196/j.cims.2023.BPM29

Previous Articles    

Method for automatic extracting process models from criminal case records with business process model

ZHANG Yuan,ZOU Wentao,YUAN Hao,LI Chuanyi+,GE Jidong,LUO Bin   

  1. State Key Laboratory for Novel Software Technology,Nanjing University
  • Online:2024-08-31 Published:2024-09-06
  • Supported by:
    Project supported by the National Natural Science Foundation,China(No.61802167).

基于业务过程模型的刑事案件裁判文书过程信息自动梳理技术

张源,邹文涛,袁豪,李传艺+,葛季栋,骆斌   

  1. 南京大学计算机软件新技术国家重点实验室
  • 作者简介:
    张源(1990-),男,江苏南京人,博士研究生,研究方向:自然语言处理等,E-mail:zyjwc@nju.edu.cn;

    邹文涛(1996-),男,江苏南京人,博士研究生,研究方向:过程挖掘、区块链、自然语言处理等,E-mail:DZ1832005@smail.nju.edu.cn;

    袁豪(1996-),男,重庆人,硕士,研究方向:自然语言处理等,E-mail:lcynju@126.com;

    +李传艺(1991-),男,江苏淮安人,助理教授,博士,研究方向:业务流程管理、云计算、自然语言处理等,通讯作者,E-mail:lcy@nju.edu.cn;

    葛季栋(1978-),男,江苏南通人,副教授,博士,研究方向:业务流程管理、云计算、自然语言处理等,E-mail:gjd@nju.edu.cn;

    骆斌(1967-),男,浙江义乌人,教授,博士,研究方向:业务流程管理、云计算、自然语言处理等,E-mail:luobin@nju.edu.cn。
  • 基金资助:
    国家自然科学基金资助项目(61802167)。

Abstract: Nowadays,a large amount of process information is hidden in natural language documents.Extracting process models from documents would provide clear and concise views of them.There exists lots of related research in different application domains.While handling the Chinese Judgement Document,where the process of handling a legal case is recorded,we found that challenges features:①the events do not strictly follow chronological order;②a mass of noisy information exists.Although these features are widely found in texts in a variety of fields,little work is done to deal with them.A portable approach for mining process models was proposed from texts with these features.Through prior domain knowledge and machine learning,a novel data entity named event framework was constructed to solve above difficulties and generate business process models automatically.Experimental results showed that the proposed approach could effectively handle the above-mentioned challenges.

Key words: process mining, procedure text, natural language process, event extraction, judgement document

摘要: 在信息时代,大量过程信息被隐藏在由自然语言写成的文档中,从中自动抽取过程模型并可视化将有助于对过程信息的查看和管理。在中国刑事案件裁判文书中,存在着以下两个挑战:①事件在文本中的描述未严格按照时间顺序;②存在大量噪声信息。尽管该特征广泛存在于不同领域的文本中,相关的研究却很少。为此,提出一种具有可移植性的文本过程挖掘算法,通过结合领域知识和机器学习建立名为“事件框架”的新型数据结构,从而解决上述难点并最终自动构建业务过程模型。通过人工构建的大量过程模型与自动生成的过程模型在结构、文本相似度上的实验对比,证明该算法能有效地解决上述挑战。

关键词: 过程挖掘, 过程文本, 自然语言处理, 事件抽取, 裁判文书

CLC Number: