基于反向校對(duì)方法的糾錯(cuò)技術(shù)研究

2023/08/02-16:20 來源：

張從輝于波鄂毅

(人民日?qǐng)?bào)社技術(shù)部)

【摘要】隨著智能媒體審校系統(tǒng)的發(fā)展和報(bào)紙行業(yè)從業(yè)人員水平的提高，報(bào)紙上的別字已經(jīng)很少見了，但仍存在一定的糾正空間J。為了加強(qiáng)報(bào)紙的國(guó)際傳播能力，進(jìn)一步提升報(bào)紙質(zhì)量，本文基于反向校對(duì)思想，對(duì)糾錯(cuò)技術(shù)進(jìn)行了研究，提出一種支持詞庫共享的反向校對(duì)方法，對(duì)解決編輯校對(duì)因人工因素造成的版面錯(cuò)誤問題有較好的效果，從技術(shù)上為報(bào)業(yè)生產(chǎn)提供了一種降低文字差錯(cuò)率的手段，是傳統(tǒng)人工校對(duì)的有益補(bǔ)充。該方法可以用于報(bào)業(yè)系統(tǒng)付印前的Pdf版面校對(duì)，也可以用于歷史版面庫、單篇文章等的查校，對(duì)提高報(bào)業(yè)整體質(zhì)量有著重要意義。

【關(guān)鍵詞】反向校對(duì) 差錯(cuò)率別詞庫自動(dòng)糾錯(cuò)

1 引言

校對(duì)工作是報(bào)紙出版過程中非常重要的一環(huán)。尤其是一些政治性強(qiáng)的報(bào)紙，在文字表達(dá)上更不能有絲毫閃失。為了規(guī)范報(bào)紙出版行業(yè)，國(guó)家出臺(tái)了《報(bào)紙出版管理規(guī)定》《報(bào)紙期刊質(zhì)量管理規(guī)定》等法律法規(guī)，明確了報(bào)紙編校差錯(cuò)率不超過萬分之三為合格，對(duì)差錯(cuò)率計(jì)算方法也作了嚴(yán)格規(guī)定。報(bào)紙行業(yè)為了保證低差錯(cuò)率，既需要一流的校對(duì)人才，也離不開智能校對(duì)系統(tǒng)的輔助。但由于人的因素，即使一流的校對(duì)人才借助專業(yè)的校對(duì)軟件，依然不能保證沒有錯(cuò)誤。為了進(jìn)一步減少差錯(cuò)，提高校對(duì)效果，需要更多的糾錯(cuò)手段。

2 反向校對(duì)思想的提出

2.1 傳統(tǒng)人工校對(duì)方法的不足

傳統(tǒng)人工校對(duì)方法是建立在閱讀基礎(chǔ)之上的，即編輯或者專業(yè)校對(duì)通過通讀文章來對(duì)語句進(jìn)行拆分，分成一個(gè)個(gè)詞語，然后和自己大腦里對(duì)這個(gè)詞的記憶進(jìn)行比對(duì)，如果一致則為正確，不一致，則錯(cuò)誤。這看似簡(jiǎn)單的一個(gè)腦力勞動(dòng)過程，實(shí)則蘊(yùn)含著很強(qiáng)專業(yè)性、嚴(yán)謹(jǐn)科學(xué)的態(tài)度以及頑強(qiáng)的耐心毅力等。然而，即便是最專業(yè)的校對(duì)也不能保證沒有疏漏，即使是借助專業(yè)的校對(duì)軟件、文字編輯器的別字提示功能，依然不能百分百保證報(bào)刊出版的零差錯(cuò)，這是傳統(tǒng)人工校對(duì)方法的不足。2021年8月，中國(guó)報(bào)業(yè)協(xié)會(huì)組織開展了“全國(guó)主流報(bào)紙出版質(zhì)量評(píng)測(cè)”活動(dòng)叫，評(píng)測(cè)結(jié)果見表1?？梢娂词褂袑I(yè)校對(duì)軟件的輔助，依然不能避免錯(cuò)誤的發(fā)生。另外，商品化的智能校對(duì)系統(tǒng)陸續(xù)出現(xiàn)，但別字庫更新補(bǔ)充較麻煩，無法實(shí)現(xiàn)共享，且不能自動(dòng)糾錯(cuò)，這也使得這些軟件輔助人工校對(duì)時(shí)總是處于滯后的狀態(tài)，是錯(cuò)誤的另一個(gè)成因。

表1 2021年中央級(jí)報(bào)紙出版質(zhì)量評(píng)測(cè)排名(部分)

2.2 反向校對(duì)思想的提出

素有“語言界啄木鳥”之稱的《咬文嚼字》雜志，曾在2005年創(chuàng)刊10周年之際，整理出了《當(dāng)代漢語出版物中最常見的100個(gè)別字》(見圖1,括號(hào)內(nèi)為正確的字)。這個(gè)圖是《咬文嚼字》編輯部自創(chuàng)刊以來，組織社會(huì)上方方面面的力量審讀了約3000本圖書、1000種期刊、100種報(bào)紙，并請(qǐng)100家新聞出版單位，提供每年差錯(cuò)率最高的詞，這批長(zhǎng)期出現(xiàn)、廣泛出現(xiàn)、反復(fù)出現(xiàn)的別字，便是在10年調(diào)查的基礎(chǔ)上產(chǎn)生的。這100個(gè)別字都是之前10年來出錯(cuò)頻率最高的，據(jù)專家統(tǒng)計(jì)，若將這100個(gè)常見的別字糾正過來，當(dāng)時(shí)出版物上的別字總量將減少一

半以上2?；谶@一論斷，本文提出了反向校對(duì)思想，即建立常見別詞庫，用別字去校對(duì)文章。具體來說，就是通過分詞工具將文章分解成詞，這一環(huán)節(jié)相當(dāng)于人工校對(duì)的閱讀環(huán)節(jié)。然后與別詞庫中的詞比對(duì)，如果一致，則表明這個(gè)詞是錯(cuò)誤的，標(biāo)記出來。這樣就可以是通過技術(shù)手段把文章中這些常見的別字過濾掉。之所以稱為反向校對(duì)，是相對(duì)于傳統(tǒng)的人工校對(duì)而言，人工校對(duì)可以說是正向校對(duì)，即從文章中校對(duì)錯(cuò)別詞匯，而反向校對(duì)是用錯(cuò)別詞匯校對(duì)文章，即從一篇文章中找出別詞，從一批文章中找出有別詞的文章。

這100個(gè)常見別字雖然已經(jīng)公布了多年，但依然時(shí)常出現(xiàn)報(bào)紙刊、雜志上。比如，在百度中搜索“一幅對(duì)聯(lián)”,馬上就會(huì)出現(xiàn)若干條結(jié)果：“一副”對(duì)聯(lián)還是“一幅”對(duì)聯(lián)?可見要消除這些常見別字任重而道遠(yuǎn)。

2.3 反向校對(duì)與反向查錯(cuò)的區(qū)別

專業(yè)校對(duì)軟件提供反向查錯(cuò)的功能，即將已知的錯(cuò)誤詞匯加入錯(cuò)詞庫，文中如果有錯(cuò)詞庫中的詞會(huì)自動(dòng)標(biāo)識(shí)出來，類似于查找功能。而反向校對(duì)方法是用計(jì)算機(jī)算法模擬傳統(tǒng)人工校對(duì)的過程，在這個(gè)過程中把人工校對(duì)容易弄混的別詞找出來，并且可以用正確詞語直接替換。解決了自動(dòng)校對(duì)系統(tǒng)詞庫無法共享問題和不能糾錯(cuò)的問題。校對(duì)自動(dòng)化可以減少人為差錯(cuò)；歸納權(quán)威別詞庫，使校對(duì)更精準(zhǔn)；詞庫共享和反向查錯(cuò)并糾錯(cuò)，提高文稿質(zhì)量，強(qiáng)化工作效率。

圖1 《當(dāng)代漢語出版物中最常見的100個(gè)別字》局部

3 反向校對(duì)糾錯(cuò)方法的實(shí)現(xiàn)

3.1 分詞

校對(duì)是建立在閱讀基礎(chǔ)之上的，要讓計(jì)算機(jī)校對(duì)文章，就要實(shí)現(xiàn)計(jì)算機(jī)閱讀文章的功能。對(duì)比人工校對(duì)過程，閱讀就是將文章分成一個(gè)一個(gè)詞語，來分別判斷每個(gè)詞語的對(duì)錯(cuò)。因此計(jì)

算機(jī)閱讀文章的第一步就是要分詞。

當(dāng)前流行的中文分詞工具很多，比較而言，Jieba分詞工具是一個(gè)優(yōu)秀的中文分詞工具。

它以第三方庫形式提供給Python語言調(diào)用，是Python語言中目前最受歡迎的中文分詞庫。英文文本可以通過空格來分詞，而中文文本詞與詞之間是沒有空格的。Jieba分詞的原理就是利用一個(gè)中文詞庫，確定漢字之間的關(guān)聯(lián)概率，然后組成詞組，形成分詞結(jié)果。

Jieba分詞支持三種分詞模式：

(1)精確模式

就是將句子精確地分開成若干中文單詞，這些詞合起來就是之前的語句，其中不存在冗余單詞，這種模式適合文本分析。

(2)全模式

就是將一段文本中所有可能的詞語都掃描出來，可能有一段文本它可以切分成不同的模式，或者從不同的角度來切分變成不同的詞語，分詞后的信息再組合起來不再是原來的文本。

(3)搜索引輦模式

就是在精確模式基礎(chǔ)上，對(duì)發(fā)現(xiàn)的那些長(zhǎng)的詞語再次切分，進(jìn)而適合搜索引擎對(duì)短詞語的索引和搜索，也有冗余。

例如：對(duì)文本“我來自人民日?qǐng)?bào)社技術(shù)部”采用三種分詞模式分詞，源代碼和結(jié)果如圖2所示。

圖2 對(duì)文本“我來自人民日?qǐng)?bào)社技術(shù)部”進(jìn)行Jieba三種模式分詞結(jié)果

顯然，三種分詞模式都可以采用，全模式和搜素引擎模式更符合人們的校對(duì)習(xí)慣。但是這兩種模式對(duì)文本如“據(jù)公開消息”“掃描模式”這樣的詞語會(huì)分解出“開消”“描模”,這與庫中“開銷”“描摹”的錯(cuò)誤寫法“開消”“描?！蔽呛?，從而報(bào)錯(cuò)。中文文本中這種情形還比較常見，是不能簡(jiǎn)單地通過像Word、WPS這樣的字處理軟件的查找替換功能解決的。分詞的意義就在于準(zhǔn)確地分解出中文語句中詞語的組合，反向校對(duì)是建立在分詞基礎(chǔ)之上的。因此，精確模式可以作為反向校對(duì)方法分詞的主要模式，全模式和搜索引擎模式作為參考模式。

3.2別詞庫

別詞庫是反向校對(duì)方法的另一個(gè)關(guān)鍵因素，收錄的別詞越多、越權(quán)威，就越能發(fā)揮反向校對(duì)的優(yōu)勢(shì)。然而，別詞庫是語言學(xué)領(lǐng)域一個(gè)十分專業(yè)的問題。事實(shí)上，除了《咬文嚼字》雜志公布的常見的100個(gè)別字外，其他權(quán)威機(jī)構(gòu)也曾發(fā)布過常見錯(cuò)別字庫。如：上海教育出版社2020年6月出版的《高頻別字300例》 ,四川辭書出版社2020年7月出版的《消滅別字與病句》(全新版)列出了1600多個(gè)易錯(cuò)字15,上海文化出版社和上海咬文嚼字文化傳播有限公司聯(lián)合出版的《常見別字辨析手冊(cè)》同，等等。結(jié)合權(quán)威機(jī)構(gòu)的出版物和專業(yè)校對(duì)人員的反饋，例如：“采訪”是“采訪”的別詞，“志和者”是“志合者”的別詞等等。本文歸納出了1100多個(gè)別詞的別詞庫，并且別詞庫可以結(jié)合實(shí)踐予以靈活增減。

在Python語言中可以用一個(gè)集合建立常見別詞庫。以圖1為例，建立別詞庫，如圖3中紅色方框所示。

圖3創(chuàng)建別詞庫和添加別詞庫到Jieba中文庫中

前面提到，Jieba分詞是利用一個(gè)中文詞庫來確定漢字之間的關(guān)聯(lián)概率組成詞組，形成分詞結(jié)果。而圖3別詞庫中的詞是基于統(tǒng)計(jì)學(xué)知識(shí)從書籍、報(bào)刊中挑選出來的“別詞”,這些詞未必都在Jieba的中文詞庫中，因而需要使用Jieba提供的Jieba.add_word()函數(shù)把這些詞加入庫中，如圖3中藍(lán)色框所示。Jicba中文字庫中有了這些詞就可以準(zhǔn)確地從文本中分析出這些詞，如圖4所示。

圖4添加別詞庫到Jieba中文庫前后的分詞結(jié)果

圖4上、下半部分別是添加別詞庫到Jieba中文庫前后的分詞結(jié)果。可見，添加別詞庫到Jieba中文庫前，Jieba的全模式對(duì)別詞“按裝”沒有分析出來，三種模式對(duì)別詞“一愁莫展”都沒分詞正確，添加后，三種模式都能正確分析出來。

3.3 自動(dòng)糾錯(cuò)技術(shù)

為了實(shí)現(xiàn)自動(dòng)糾錯(cuò)功能，對(duì)應(yīng)于別詞庫，還應(yīng)建立正確詞庫。因此，本系統(tǒng)不僅有查錯(cuò)功能，也有糾錯(cuò)能力。當(dāng)用戶將文稿提交到后臺(tái)后，進(jìn)行Jieba分詞，再與別詞庫比對(duì)，將錯(cuò)別字放入內(nèi)存中，當(dāng)確認(rèn)確實(shí)是別詞后，使用對(duì)應(yīng)的正確詞語替換，并將操作寫入日志。

3.4別詞庫共享技術(shù)

本系統(tǒng)采用了Flask框架對(duì)Web進(jìn)行設(shè)計(jì)，每個(gè)用戶均可以將自己的別詞庫提交到服務(wù)器端。服務(wù)器端會(huì)對(duì)校對(duì)過的文本進(jìn)行掃描統(tǒng)計(jì)，達(dá)到設(shè)定值后，經(jīng)人工審核就可以進(jìn)入別詞庫。凡進(jìn)入別詞庫的詞可以被所有用戶共享，不用每個(gè)用戶再自己添加，間接提高了工作效率。

3.5 算法實(shí)現(xiàn)及結(jié)果

Python作為一門超級(jí)語言以其簡(jiǎn)單、易學(xué)、開源和豐富的第三方庫而深受廣大編程愛好者青睞。2021年10月，語言流行指數(shù)的編譯器Tiobe將Python加冕為最受歡迎的編程語言，20年來首次將其置于Java、C和JavaScript之上四。借助Python豐富的第三方庫，研究人員可以將主要精力放在自己關(guān)注的問題上，從而高效地完成任務(wù)。這里使用的Jicba庫就是一個(gè)例子。反向校對(duì)方法在算法實(shí)現(xiàn)上就是將要校對(duì)的文件讀入到文本中，然后用Jieba分詞工具進(jìn)行分詞并存入列表，然后對(duì)列表中元素與別詞表中元素一一比對(duì)，找出相同元素，即別詞。顯而易見，反向校對(duì)方法有一個(gè)優(yōu)勢(shì)，那就是對(duì)重復(fù)詞語只需查校一遍。詞語重復(fù)在文章中是常見的事，例如，在十九大報(bào)告中，“人民”二字出現(xiàn)了200多次。人工校對(duì)無疑要對(duì)200多處“人民”都要校對(duì)，而在反向校對(duì)方法中，通過采用對(duì)分詞產(chǎn)生的重復(fù)元素只記錄一次方式實(shí)現(xiàn)對(duì)文章重復(fù)詞語只校對(duì)一次的功能，從而可以提高查校效率。

圖5 程序運(yùn)行結(jié)果

圖5的上半部分是用反向校對(duì)方法對(duì)某報(bào)5天48個(gè)版面，約44.5萬字的內(nèi)容做的測(cè)試結(jié)果。從測(cè)試結(jié)果看，查到兩個(gè)“別詞”。“明查暗訪”和“明察暗訪”已經(jīng)通用，可以不算錯(cuò)。但“松馳”是別詞，正確應(yīng)該是“松弛”。圖5的下半部分是對(duì)另一報(bào)紙5天76個(gè)版面，約

39.3萬字的內(nèi)容做了測(cè)試。從運(yùn)行結(jié)果看，“座落”應(yīng)為坐落，沒有問題?！安荒茏约骸贝_是“不能”“自己”兩個(gè)詞的組合，例如：我不能自己一個(gè)人去那里。因?yàn)橄騄icba中文字庫中添加不能自己的別詞“不能自己”,因而算法把兩個(gè)詞當(dāng)成了一個(gè)詞。這也讓我們認(rèn)識(shí)到了漢語的復(fù)雜性，提醒我們找到“別詞”的同時(shí)，還要看看“別詞”所在的句子。相應(yīng)的“別詞”也都在其報(bào)紙官方網(wǎng)站上進(jìn)行了核實(shí)。程序運(yùn)行用時(shí)間分別是0.791秒和0.869秒，完全不用擔(dān)心效率問題。

總的來說，報(bào)紙上的別字錯(cuò)誤確實(shí)很少了，但反向校對(duì)方法確實(shí)還是能查出個(gè)別別詞來，這證實(shí)了反向校對(duì)方法的有效性。只要?jiǎng)e詞數(shù)據(jù)庫足夠豐富、權(quán)威，就能查找出報(bào)紙上更多的別詞。同時(shí)我們也認(rèn)識(shí)到漢語言的復(fù)雜性，反向校對(duì)方法的研究也只是處于起步階段，還需要進(jìn)一步深入研究完善。

4反向校對(duì)的意義和應(yīng)用場(chǎng)景

反向校對(duì)的實(shí)質(zhì)是用計(jì)算機(jī)算法模擬傳統(tǒng)人工校對(duì)的過程，以解決人工校對(duì)中由于人的視覺、記憶上的偏差造成對(duì)常見別字的混淆而發(fā)生的人為錯(cuò)誤。雖然一些專業(yè)的校對(duì)軟件也有錯(cuò)詞庫和反向查錯(cuò)功能，但在實(shí)際使用中這些功能也只是作為人工校對(duì)的輔助手段。反向校對(duì)的意義在于排除“人工因素”導(dǎo)致的錯(cuò)誤，這也決定了反向校對(duì)方法只能作為人工校對(duì)方法的補(bǔ)充。即人工校對(duì)的輸出是反向校對(duì)方法的輸入。

總的說來，只要能轉(zhuǎn)化為文本格式的文件、資料都可以使用反向校對(duì)方法來查校。典型的例子如下：

(1)壓版前的Pdf版面

對(duì)于報(bào)業(yè)來說，反向校對(duì)方法只有對(duì)最終的Pdf格式的版面進(jìn)行校對(duì)才最有意義，相當(dāng)于校對(duì)的最后一道防線。這就需要將Pdf版面轉(zhuǎn)換成Txt文件的中間過程。Pdfplumber是Python中Pdf轉(zhuǎn)Txt的第三方工具，可以實(shí)現(xiàn)完美轉(zhuǎn)換。

(2)復(fù)印前的書刊

當(dāng)編輯編完一本書或刊物后，如果想檢查書中有沒有常見的別字，可以使用反向校對(duì)方法。本方法對(duì)一本30萬字的電子書進(jìn)行查校，運(yùn)行時(shí)間0.9秒。當(dāng)然，反向校對(duì)方法對(duì)單篇文章也是適用的。

(3)歷史資料庫

各種出版物都有自己的歷史資料庫，這些資料庫對(duì)于今天的學(xué)術(shù)研究或編纂書籍有重要的參考價(jià)值。但如果有錯(cuò)誤，被引用就有可能造成對(duì)錯(cuò)誤的二次傳播?？梢杂梅聪蛐?duì)方法對(duì)整個(gè)歷史資料庫進(jìn)行查校，從而減少錯(cuò)誤的二次傳播。

(4)對(duì)于聲音轉(zhuǎn)成的文字

媒體進(jìn)入四全媒體時(shí)代，節(jié)奏快是一個(gè)鮮明的特點(diǎn)，從而大大壓縮了留給校對(duì)工作者的時(shí)間。語音轉(zhuǎn)文字是編輯們常用的方法，但語音轉(zhuǎn)文字不能百分百轉(zhuǎn)換正確，反向校對(duì)方法可以輔助編輯快速過濾掉那些轉(zhuǎn)換中出現(xiàn)的常見別字，從而提高工作效率。

(5)OCR識(shí)別的文字

神經(jīng)網(wǎng)絡(luò)算法在圖片領(lǐng)域的深入應(yīng)用，推動(dòng)了圖片中文字識(shí)別技術(shù)的發(fā)展，越來越多的人使用手機(jī)截屏，然后OCR識(shí)別后，獲取可編輯文本，但識(shí)別準(zhǔn)確率和召回率不可能達(dá)到100%,所以也存在錯(cuò)誤。使用反向校對(duì)方法不僅能提高文本質(zhì)量，也能提高文本處理效率。

(6)校對(duì)力量較弱的自煤體

這幾年自媒體飛速發(fā)展，但也良莠不齊。經(jīng)常在自媒體文章上或視頻字幕上看見錯(cuò)別字。可以使用反向校對(duì)方法快速去除常見的別字。

5 結(jié)語及展望

反向校對(duì)方法是基于語言專家在對(duì)書籍、報(bào)刊中常見的100個(gè)別字的統(tǒng)計(jì)學(xué)基礎(chǔ)上給出的科學(xué)論斷提出的，并通過Python語言基于第三方庫予以實(shí)現(xiàn)，是在實(shí)踐中經(jīng)過檢驗(yàn)行之有效的方法。該方法能直接用于報(bào)業(yè)系統(tǒng)付印前的Pdf版面的最后查校，也可以用于歷史版面庫、單篇文章的校對(duì)，是從技術(shù)上降低報(bào)業(yè)生產(chǎn)文字差錯(cuò)率的有力手段，是人工校對(duì)方法的有益補(bǔ)充，對(duì)提高報(bào)紙行業(yè)的整體文字質(zhì)量有重要意義。

根據(jù)反向校對(duì)思想，類似于別詞庫，可以添加常用規(guī)范表述庫圖、古典詩文名句庫、邏輯表達(dá)詞語庫等，從而全方位、多角度對(duì)文章進(jìn)行核校，將現(xiàn)代科技最大限度地應(yīng)用于傳統(tǒng)報(bào)業(yè)的出版發(fā)行，提高報(bào)業(yè)質(zhì)量。同時(shí)，在實(shí)踐中我們也深刻了解到了漢語言的復(fù)雜性，反向校對(duì)方法還有很大的改進(jìn)空間。

參考文獻(xiàn)：

[1]中國(guó)報(bào)業(yè)協(xié)會(huì)開展2021年全國(guó)主流報(bào)紙出版質(zhì)量評(píng)測(cè)活動(dòng).中國(guó)報(bào)協(xié)網(wǎng)

[2]《咬文咽字》整理出百個(gè)最常見別字，《人民日?qǐng)?bào)》,2005年4月25日：第11版文化

[3] https://github.com/fxsiy/Jicba

[4]許霞，《高頻別字300例》,上海：上海教育出版社；2020年6月

[5]彭倫健，彭皓宇.《消滅錯(cuò)別字與病句》,成都；四川辭書出版社：2020年7月第1版

[6]楚山孤.《常見別字辨析手冊(cè)》.上海：上海文化出版社、上海咬文嚼字文化傳播有限公司；2019年2月

[7] https://baike.baidu.com/item/Python/407313?fr=aladdin

[8]呂飛.《宜傳工作常用規(guī)范表述300例》,北京：人民日?qǐng)?bào)出版社；2021年：001-002頁

基于反向校對(duì)方法的糾錯(cuò)技術(shù)研究

新聞技聯(lián)動(dòng)態(tài)