中文文本自动校对方法研究综述

时间：2023-02-13 18:45:08 来源：千叶帆本文已影响人

白雪丽，李建义，王洪俊，3，贾盼盼，王迦南

（1.北华航天工业学院计算机学院，河北廊坊 065000；
2.中国电子信息产业集团有限公司第六研究所，北京 100083；
3.拓尔思信息技术股份有限公司，北京 100101）

文本校对在日常工作中较为常见，随着计算机和互联网飞速发展，文本电子化成为了不可逆转的大趋势，人工校对工作量急剧增加。在此背景下，中文文本自动校对课题应时而生。20 世纪60 年代，国外就开展有关英文文本自动校对的相关研究［1］，经过不断发展和创新，已广泛应用于实际工作当中。

目前，中文文本自动校对技术主要包含以下5 种方法：①基于字词混淆集形成候选字符串方法；
②基于概率统计分析上下文方法，例如N-gram 模型；
③基于规则和词语搭配关系方法，例如构建语法规则、词语搭配知识库等；
④基于改进循环神经网络（Recurrent Neural Network，RNN）方法，例如长短期记忆网络（Long Short-Term Memory，LSTM）、Seq2Seq 等模型；
⑤基于BERT（Bidirectional Encoder Representation from Transformers）方法，例如SpellGCN模型、Soft-Masked BERT 等。其中，前3 种为传统中文文本校对方法，后两种为基于深度学习的中文文本校对方法。

1.1 错误形式

在中文文本校对领域，文本错误通常包括词法、句法、语义等形式。其中，词法错误是最常见的错误形式之一，主要包括错别字、多字少字、易位等；
句法错误是违背语法约束和使用习惯的错误；
语义错误是在词法、句法上不存在问题，但不符合上下文的语义逻辑。具体示例如表1所示。

Table 1 Text error example表1 文本错误示例

由于只能借助汉字编码将中文字符输入计算机中，无法产生如英文一样因多或少字母而形成的非字错误。因此，中文文本错误大部分是在输入时产生，而由于文本输入的方式不同，可能会产生不同类型的错别字。例如，拼音和语音识别常见的错误通常为音似错误；
五笔输入和文字识别常见的错误通常为形近错误。

考虑到文本错误形式各不相同，本文将中文文本校对分为中文拼写纠错（Chinese Spelling Correction，CSC）、中文语法纠错（Chinese Grammatical Error Correction，CGEC）和中文语义纠错（Chinese Semantic Error Correction，CSEC）。

1.2 自动校对方法测评标准

表2 为用于测评中文文本校对模型性能的混淆矩阵。

Table 2 Confusion matrix表2 混淆矩阵

其中，真正例TP（True Positive）为有错且纠正正确的样本，假正例FP（False Positive）为有错但纠正错误的样本，真反例TN（True Negative）为无错且未被纠正的样本，假反例FN（False Negative）为无错但已纠正的样本。4 种类别样本数量之和应等于样本总数，并根据公式（1）-公式（4）计算模型的误报率（False Positive Rate，FPR）、准确率（Accuracy，A）、精确率（Precision，P）、召回率（Recall，R）和加权调和平均值（F-Score）。

由于P指标仅针对预测结果，R指标仅针对真实样本，在一般情况下这两个指标会产生矛盾。因此，本文选择P、R指标的F值作为评判指标，具体计算公式如公式（5）所示：

其中，α为正数，用来度量指标P和R的相对重要性。当α>1 时，代表R指标对F值影响更大；
反之P指标对F值影响更大。

1.3 数据集

虽然中文文本自动校对领域有其特定评价指标，但由于文本校对具有很大的灵活性和领域针对性，通用的数据集较少，难以对不同模型进行评估、比较。目前，常用的标准数据集主要为《人民日报》标注数据集、2018 年NLPCC比赛中CGEC 任务提供的数据集及SIGHAN Bake-off 2013至2015年比赛提供的数据集。

《人民日报》数据集收集了官方网站上的文章，这些文章都已经过了严格的审查，用词严谨、准确；
SIGHAN 比赛的CSC 任务旨在为开发和实施自动中文拼写检查提供评估平台，其中2013 年的数据集是以汉语为母语的人所写的文章，2014-2015 年的数据集是汉语学习者所写的文章；
2018 年NLPCC 会议的CGEC 数据集来自于汉语学习者所写的作文，数据集标注灵活。虽然这些通用数据集泛化能力较低，但对中文文本校对领域仍具有重大的意义。

2.1 词法级

Chang［2］提出基于近似字集替换的中文拼写自动纠错方法，该方法将句子中的字利用混淆字符集中对应的字进行替换，生成大量的句子假设，然后使用语言模型对句子假设进行评分，最后将得分最高的句子假设与原始句子进行比较，确定校正结果。实验表明，该方法将中文拼写检查的准确率从2.5%提高到了51.72%，且可同步改正检测到的拼写错误，有效解决了当前校对系统所面临的正确率低及纠错能力差的问题。但由于混淆集整理难度较大，无法覆盖所有错误，导致该方法的纠错能力受到一定的限制。

传统纠错方法是先检测利用中文分词器切分错误的字词，形成疑似错误位置候选集，然后遍历所有疑似错误，若错误存在于混淆集中则直接替换，若不存在则使用音似、形似词典替换错误位置的词，最后通过语言模型计算句子困惑度，得到最优纠正词。该方法减少了模型的计算量，给中文文本自动校对领域提供了参考。李建华等［3］认为汉语是由语言规则组合而成，因此抽象出字词间的语言规则，并以此为思想设计了一个基于多特征的中文拼写校对系统。实验表明，该系统的错误召回率为87.20%，拼写检查准确率为75.00%，改正正确率为59.92%，但由于汉语结构复杂、应用灵活，人工总结的规则十分有限，且无法校对多字词替换错误，因此系统仍存在一定的局限性。由于汉语理论的研究尚不成熟，吴岩等［4］将规则与统计方法相结合，设计了一个基于词匹配和语法分析相结合的中文文本自动校对系统，该系统首先通过逆向最大匹配和局部语料统计分词方法，将文本划分为词和散串，然后利用语法规则重定位错误散串，接下来基于模糊查找可能代替错误散串的候选串，最后以人机交互方式进行错误校正。实验结果表明，该系统不受领域限制，可有效结合规则与统计方法，应用性广泛，查错正确率达到80.1%，纠错率正确率达到了75.5%。张仰森等［5］将文本错误视为词、短语等语言表层结构的破坏，利用字词间接续关系和局部分析技术提出了一种基于二元接续关系查错的方法，该方法首先检查字级别的接续关系定位疑似错误，再通过检查词性接续和义类接续确定错误，虽然实验结果表明该方法效果较好，但存在运算速度缓慢、无法发现成词多字替换错误等问题。

为了解决上述问题，张仰森等［6］又提出了规则与统计相结合的中文文本自动查错算法，该算法提出“真多字词错误”和“非多字词错误”的概念，并根据“文本分词后单字词出现的次数有限”这一规律，结合单字散串建立了字二元、三元统计模型和词性二元、三元统计模型。实验结果表明，该方法相较于文献［5］的方法，查错召回率由71.2%提高到86.85%，查准率由35.1%提高到69.43%。由于条件随机场（Conditional Random Fields，CRF）和N-Gram 概率统计模型相结合可达到优势互补，卓利艳［7］将它们相融合提出查错模型，使用融合结果定位文本错误，并将定位错误分为缺失、冗余和误代三种类型，采用不同纠正方法进行纠正。其中，缺失错误使用语言模型进行纠正；
冗余错误采用直接删除法；
误代错误采用同音词典进行纠正。实验结果表明，该模型可较为准确地识别错误文本，但由于缺乏语法和语义方面的校对，因此存在一定的局限性。

2.2 句法与语义级

陶永才等［8］考虑到中文语句成分信息受词义、词性、词语搭配、词语间关联程度等因素的影响，通过抽取中文语法规则构建了一个语法—词语搭配的双层知识库，并结合N 元马尔科夫链语言模型设计并实现了一个基于词语搭配关系的中文文本校对系统。该系统首次提出对待校对文本进行成分分析，抽取文本的语法结构规则并与词语搭配关系相结合。实验结果表明，文本校对正确率为73.2%，但系统难以校对长距离的词语搭配关系，并缺少对句子成分的有效分析。贾继康［9］将句法层次化分析和二、三元语句的规则集相结合，设计了基于句法分析和规则联合的中文文本校对方法。实验结果表明，该方法的测评表现良好，但由于中文应用灵活、句法结构复杂、规则繁多等因素，导致容易发生误检。

为了更好利用语言学知识，骆卫华等［10-11］结合文本的字词、句法和语义多层面提出了一种中文文本自动校对技术。该方法先使用分词和词性标注技术对句子进行成分分析，以检查文本句法层面的错误，然后基于实例、统计和规则三种搭配关系检查文本语义级别的错误。其中，语义级别的查错包括语义相似度约束检测和统计结合规则检测。但由于当时缺乏标注语料，语义相似度约束检测方法效果较差，随后仿效词级校对方法提出了基于统计的语义搭配关系检查方法。实验结果表明，在添加语义校对后，算法检测的精确度由63%降至62.3%，但召回率由87.2%提升至91.1%。程显毅等［12］结合文本查错系统和概念层次网络（Hierarchical Network of Concepts，HNC）构建了一个中文文本校对系统模型，该模型首先利用知识库对文本错误进行初步检测，然后利用词语知识库对文本语义块进行切分组合，并做句类假设以检测语法错误，最后利用句类知识库检验句类的合理性，使用语义概念关联知识和语义构成知识对句类语义知识进行分析以检测语义错误。

针对文本中的搭配错误，张仰森等［13］提出了一种基于语义搭配知识库的语义错误侦测方法，该方法通过语义搭配知识库搜索文本中可能存在的错误，然后采用统计和推理的方法获取语义搭配关联度，以此判定文本是否存在语义错误。该方法构建的语义搭配知识库相较于文献［11］更完善，因此准确率存在明显提升。

表3 为上述方法的测评结果，但由于每种方法所使用的测评集不一致，因此无法进行对比。此外，由于早期句法、语义错误的校对依赖于自身知识库，知识库的准确性和完备性可直接影响方法校对的准确性。

Table 3 Comparison of traditional syntactic and semantic proofreading methods表3 句法、语义级传统校对方法测评对比（%）

随着深度学习等技术发展，为校对领域提供了新的研究思路，相较于传统方法，深度学习的黑盒特性决定了其具有较差的可解释性，但具备了长距离依赖、强约束性和泛化能力等优点。

3.1 词法级

任柏青［14］使用新华社新闻语料数据集训练了一个基于深度学习的文本自动校对模型，通过多层非线性操作组合不断提取文本特征，输出文本的抽象表示，并抽象表示数据的一些高阶语义信息。该模型是深度学习在中文文本自动校对领域的一次尝试，为后续研究奠定了基础。陶永才等［15］设计了一种基于集成算法和长短期记忆网络（Long Short-Term Memory，LSTM）的文本校对模型，该模型先将文本通过训练好的全连接神经网络转化为对应的义原序列，再通过LSTM 组成的集成模型获取上下文语义信息并预测义原序列，接下来采用K 邻近算法对预测义原进行模糊匹配，最后基于聚合度的评价排序截取靠前的义原序列所对应的词语作为校对建议。实验结果表明，该模型相较于传统校对方法，精确率提升至85.1%，召回率提升至87.4%。通过上述实例证明，深度学习方法在校对领域存在较大的潜力，但模型在训练过程中存在过拟合、训练耗时长、参数过多等问题。郝亚男等［16］提出了一种基于双向门控循环单元（Bidirectional Gated Recurrent Unit，BiGRU）与注意力（Attention）机制相结合的文本校对模型，该模型首先向量化待校对的文本，再通过BiGRU 提取文本特征，接下来使用Attention 机制突出文本的关键信息，最后采用集束搜索求解校对位置的最优结果。实验在同一数据集上进行训练和测试，并与BiGRU-GRU、BiGRU-A、BiLSTM-A-BiLSTM 和BiGRU-A-GRU 模型进行了比较分析，实验结果表明，由于Attention 机制增强了模型对词间语义关系的捕捉能力，使BiGRU-A-GRU 的检测性能优于其它模型。Tencent Cloud AI 提出一个适用于CSC 任务的混淆集指针网络模型［17］。通过在混淆集中加入指针网络，提升了生成正确字符的概率，并减少搜索空间。实验结果表明，加入混淆集引导的Seq2Seq 校对模型在精确率和召回率上提升较大。

传统深度学习模型主要为卷积神经网络（Convolutional Neural Network，CNN）和循环神经网络（Recurrent Neural Network，RNN）。其中，LSTM、GRU、Seq2Seq 等都属于RNN 的变体模型，都是通过联系上文字符串预测当前的字或词。因此，难以进一步学习复杂的上下文关系，存在一定局限性。直到2018 年谷歌研究人员发布BERT 模型［18］，推进了NLP 和文本校对领域的发展，该模型与传统深度学习语言模型的主要区别在于：①使用大规模的语料库进行预训练；
②预训练阶段使用掩码语言模型（Masked Language Model，MLM）；
③使用12 层双向Transformer 模型特征抽取任务。其中，MLM 可同时利用前、后两个方向的信息，解决了单向信息流问题；
Transformer 模型的Attention机制综合了CNN 和RNN 的优点，可更好地获取上下文的语义信息。

爱奇艺提出基于去噪自动编码器和解码器的中文拼写检查器FASPell［19］，该模型基于MLM 实现了去噪自动编码，可为待校文本的每个字生成一组候选字集及在语境上的合适度，解码器使用了自主设计的高精确、保召回的过滤装置，可利用候选字的语境合适度和原始字的相似度，从候选字集中过滤正确字符。实验结果表明，该模型具有快速、适应性强、简单等特性。蚂蚁金服在BERT 模型的基础上以图卷积（Graph Convolutional Network，GCN）形式聚合相似字符之间的信息修正文本，设计并实现了SpellGCN中文文本校对模型［20］。复旦大学的研究人员为了解决MLM 检错能力不足的问题，提出了一种适用于文本校对的Soft-Masked BERT 模型［21］，该模型先将文本向量传入BiGRU 构建的检错网络中检测每个位置出错的概率，再传入Soft Masking 网络中计算输入向量和Mask 向量的误差概率，接下来将概率输入到BERT 的纠正网络中，选择概率最大的字符映射到候选词表中，即为该位置的正确字符。考虑到字的校对模型缺乏词信息，而词的校对模型过于复杂，阿里巴巴团队提出了基于块的全局优化策略以实现拼写修正［22］，该模型基于块的解码思想，先将待校对文本分为单字词、多字词、短语、成语等候选组块，然后采用音似、形似和义似混淆集缩小搜索空间，其中音似混淆集是该块拼音相似的集合，形似混淆集是该块距离为1 的集合，语义混淆集是利用MLM 根据上下文信息检索该块语义合理的候选集，最后使用最小误差率训练（Minimum Classification Error Training，MERT）算法结合不同特征实现全局优化。Tencent AI Platform 提出一个带有拼写错误知识的预训练模型PLOME［23］，该模型与文献［20］实验采用的数据相同，但训练策略不同，PLOME 利用GRU 网络将字的拼音和笔画进行建模。Tencent Cloud 提出了一种Realize 模型［24］，通过不同的编码器捕获汉字的音似、形似和语义信息，然后基于门控方式选择性进行模态融合。实验结果表明，上述改进BERT 模型运用于文本校对中均取得了较好的效果。表4 为以上方法在SIGHAN2015 测试集上的测评结果。

Table 4 Comparison of lexical level proofreading methods based on deep learning表4 词法级基于深度学习校对方法测评比较（%）

3.2 句法级

中文文本自动校对技术发展至今，大部分都是针对字词级，句法级校对较少。英文语法纠错方法经历了由规则到分类器再到机器翻译的演变［25］，早期主要是应用规则和机器学习方法进行语法纠错，虽然对特定类别的错误十分有效，但由于语言的复杂性，该方法无法作为GEC 领域的通用方法。直至2006 年Chris 等［26］提出将语法翻译看作“坏”句子翻译成“好”句子的思想，于是基于机器翻译方法逐渐成为了GEC 的主流方法，而CGEC 的研究则起源于2018 年召开的中文语法错误诊断大赛，该比赛的数据集来自汉语水平考试中的写作部分，参赛团队需要利用AI 算法对文章中的语法语义错误进行识别修正，比赛将多样性的错误归并为字符串冗余、字符串缺失、字符串错误及语序错误4 类，并利用侦测层、识别层、定位层及修正层4 个级别对提交的系统进行性能评估［27］。其中，侦测层判断识别文本中是否包含错误；
识别层识别错误文本的类型；
定位层判断错误文本的位置和覆盖范围；
修正层输出字符串缺失和字符串错误两种错误类型的纠正结果。

NLP-TEA2018 会议Correction 任务的优胜团队以BiLSTM+CRF 为模型本体，通过引入大量语言知识特征，制定数百条规则用于检测错误，并结合点互信息和Attention 机制的Seq2Seq 模型对检错结果进行修改。虽然无法达到商用级别准确度，但为后续研究提供了思路［28］。

2018 年NLPCC 比赛第一次组织了CGEC 任务，旨在检测并修正非汉语母语学者写的文章中的语法错误。根据参赛队伍提供的作品可知，大部分参赛队伍将GEC 问题视为翻译问题，并集成多种模型进行语法纠错。其中，评分最高的有道团队先使用5-gram 模型和音形混淆集对文本进行拼写纠正，然后应用Seq2Seq 模型将语法纠错转化为机器翻译任务，最后选择困惑度最低的句子作为正确输出［29］。成绩第二的阿里团队结合基于规则、统计和神经网络模型的方法，先在类别内进行低级组合得到类别候选，再对类别间候选进行高级组合得到最终的正确输出［30］。两个团队方案的效果相差不大，思路相近却不尽相同，为之后的模型构造方面提供了多种思路。王辰成等［31］同样将CGEC 问题视为翻译问题，采用基于多头Attention 机制的Transformer 模型作为纠错模型，提出了一种动态残差结构，通过动态结合不同神经模块的输出以增强模型捕获语义信息的能力，提高模型性能。

在NLP-TEA2020 会议的Correction 任务中可知，BERT的使用非常广泛［32］。其中，外研在线团队使用了基于BERT 的序列标注模型夺冠。第二名的哈工大讯飞联合实验室通过在BERT 模型的基础上融入残差网络，根据Res-BERT 模型的输出的结果，分别进行用词不当错误和内容缺失错误纠正［33］。

通过以上分析可知，虽然BERT 模型的应用给CGEC提供了解决思路，但该模型的测评指标仍然较低，远达不到商用标准。表5为上述方法的测评结果。

3.3 语义级

语义级校对从最初使用规则和统计模型获取语义搭配知识库，转变为使用依存句法树对文本语义进行分析，最后使用Attention 机制捕获词间语义关系。在引入深度学习方法后，由于模型能自主学习待校文本中的深层语义信息，无需单独考虑语义信息，因此导致目前针对语义校对的研究较少。

Table 5 CGEC assessment result based on deep learning表5 基于深度学习的CGEC测评结果（%）

汤柳君［34］利用实体抽取技术与知识图谱相结合的方法对中文文本进行句法语义校对，该方法集成了拼写错误、成分缺失、定义矛盾、内容遗漏等校对功能，在限定的文本校对领域中具有较高的查全率，但缺乏对于语义关系校对的研究。

目前，中文文本校对系统大多基于语言模型结合规则、语料库等语言特征进行检测纠正。其中，传统模型发展较为完善，虽然具备易训练、可解释性强等特点，但存在缺乏长距离依赖、数据稀疏、容易出现未知词、泛化能力差等问题，尤其是在语法和语义层面存在较大的局限性。而基于深度学习的语言模型可自主学习文本中的深层语义信息，具有长距离依赖等特性。

根据对中文文本自动校对领域的应用进行分析、总结可知，文献［1］分别评述了中、英文校对的技术难点和解决方法，但当时的校对技术还不够成熟，而目前结合语言规则和特征的传统语言模型已经发展的较为完善，且引入深度学习技术使得该领域迎来里程碑式的发展。本文旨在分析、对比前人的研究方法和当前的研究水平，总结目前中文文本校对方法存在的不足之处。

通过过现有方法的研究发现，今后可按照以下6 个方向对模型进行改进：①尝试加入知识图谱等技术，在模型中融入文本中的实体及实体关系，增加模型对复杂关系推理的能力，进一步理解上下文关系；
②解决跨领域的迁移学习问题；
③扩充中文文本校对标注训练集资源，已有研究人员尝试在文本中增加噪音以增强相关数据，例如Tencent AI Lab 提出的基于数据驱动方式自动生成拼写错误的CSC 语料库构造方法［35］、Zhao 等［36］提出的通过动态掩码改善语法纠错方法等；
④提出新的解决句法语义错误方法；
⑤进行更精确的数据预处理，对语料进行更加精确的标注［37］等数据预处理环节也十分重要，通常会直接影响模型校对的正确率；
⑥模型压缩，目前文本校对领域常用的模型较为复杂、参数量较多，导致预测速度较慢，且对硬件要求较高［38-39］。

猜你喜欢语义错误模型自制空间站模型小天使·三年级语数英综合(2022年4期)2022-04-28在错误中成长小天使·一年级语数英综合(2022年2期)2022-03-30模型小览（二）汽车导报(2017年5期)2017-08-03圆周运动与解题模型求学·理科版(2017年1期)2017-03-02离散型随机变量分布列的两法则和三模型中学生数理化·高二版(2016年4期)2016-05-14不犯同样错误人生十六七(2015年29期)2015-02-28汉语依凭介词的语义范畴长江学术(2015年1期)2015-02-27《错误》:怎一个“美”字了得短篇小说(2014年11期)2014-02-27可爱的错误等知识窗(2009年5期)2009-06-23

相关热词搜索：校对，中文，综述，