色播五月综合_国产精品视频中文字幕91_欧美日韩一区二区在线免费观看_久久久久久成人

兩階段域適應神經機器翻譯方法

來源:職稱論文發表指導網 作者:tt7129 發布時間:
掃碼咨詢
   摘要:論文《兩階段域適應神經機器翻譯方法》發表在《 廈門大學學報(自然科學版) 》,版權歸《廈門大學學報(自然科學版)》所有。本文來自網絡平臺,僅供參考。 [目的] 為了提升神經機器翻譯模

  論文《兩階段域適應神經機器翻譯方法》發表在《廈門大學學報(自然科學版)》,版權歸《廈門大學學報(自然科學版)》所有。本文來自網絡平臺,僅供參考。

  [目的] 為了提升神經機器翻譯模型的遷移學習效果,以語言數據為中心開展域適應方法探索。[方法] 根據KL散度和最大均差兩種域適應量度的定量分析結果,提出一種針對擁有大規模平行句子和小規模域文本場景的兩階段減量學習框架。第1階段域過濾,利用域文本過濾平行句子,得到域平行句子,再利用得到的域平行句子訓練出域神經機器翻譯模型。第2階段質量過濾,利用訓練出的域神經機器翻譯模型將第1階段過濾出的域平行句子翻譯一遍,比較機器譯文與人工譯文的質量,刪除低質量平行句子以獲得高質量域平行句子。最后利用得到的高質量域平行句子訓練出優化的域神經機器翻譯模型。[結果] 在適應法律域英漢神經機器翻譯上的實驗結果顯示,新提出的兩階段算法只需原來訓練步的四分之一左右,反而可以提高2個多的BLEU分數。[結論] 實驗結論證明減量學習框架能夠在大大減少訓練時空開銷的前提下獲得最優的性能,最終實現神經機器翻譯模型的快速域遷移。

源目標域之間的兩種域適應量度

  關鍵詞

  域適應;域適應量度;減量學習;神經機器翻譯;法律域

  引言

  近段時間以來,基于多層神經網絡的深度學習算法已經能夠從大規模雙語平行句對數據中訓練得到譯文質量很高的神經機器翻譯(neural machine translation, NMT)模型。得益于向量計算部件擁有的超級并行算力、多層神經網絡捕獲的深度語義特征以及平行語言大數據蘊含的寬背景上下文知識,富資源通用NMT得到了充分的研究,產生了一系列優秀算法、數據資源和實用工具[1]。隨著語言大數據爆炸增長,富資源機器翻譯研究更加關注遷移學習(transfer learning)方法,正朝著域適應(domain adaptation)方向邁進。

  遷移學習是一個機器學習問題。機器學習往往包含源域(source domain, Ds)和目標域(target domain, Dt)、源任務(source task, Ts)和目標任務(target task, Tt)兩組成對的源目概念。在描述機器學習數據時,習慣用訓練(樣本)集和測試(樣本)集概念來對應源域和目標域。通常的機器學習是雙同構的,也就是域相同(Ds=Dt)且任務相同(Ts=Tt)。而遷移學習則是異構機器學習,即域不同(Ds≠Dt)或任務不同(Ts≠Tt),亦或二者皆不同。具體而言,遷移學習致力于利用源域Ds和源任務Ts來提高目標域Dt和目標任務Tt的機器學習效果。

  域適應是一種特殊的遷移學習,即任務相同(Ts=Tt),例如都是機器翻譯任務,但域不同(Ds≠Dt),例如訓練集是通用的廣域英漢句對,而測試集是法律域英漢句對。在描述域適應時,還習慣用域外(out-domain)和域內(in-domain)概念來對應遷移學習的源域和目標域。域適應中的域不同可以具體表現為源域和目標域的數據分布不一致,也可以表現為存在大量帶標簽的域外樣本,而域內帶標簽的樣本沒有或者極少。

  域適應機器翻譯研究旨在探索如何利用信息豐富的域外樣本提升域內機器翻譯模型的性能。因為訓練集和測試集的數據分布不一致時,通常機器學習出的模型往往會過擬合源域,從而降低了在目標域上的泛化性。眾所周知,在機器翻譯或人工翻譯將一種符號轉化成另一種符號的過程中,都會面臨域專有詞表、域特有表達等域相關的問題。理想的域適應機器翻譯能夠根據域快速得到合適的機器翻譯模型。

  1 相關研究

  回顧域適應研究歷史,早在統計機器翻譯時期就產生了大量研究成果[2]。當前,域適應NMT研究繼承和發展了域適應統計機器翻譯的兩種主要思路[3]。一是以模型為中心(model-centric)改進神經網絡,通過干預神經網絡的架構、訓練以及解碼實現域適應。另一是以數據為中心(data-centric)挑選域相關的訓練樣本,包括充分發揮域內單語數據、域外高質量平行數據以及未知質量平行數據的規模優勢等。由于以模型為中心也會使用到單語或平行數據,所以上述兩種思路之間也存在交疊。

  1.1 以模型為中心的研究

  以模型為中心的思路注重深度學習算法的改進,代表性研究主要包括:

  1. 干預神經網絡架構:Tobias等[4]提出一種適用于域內單語數據的技術,即聯合訓練域語言模型和NMT模型的深融合(deep fusion)技術。Britz等[5]提出了一種適用于多域數據的技術,即在編碼器(encoder)頂部添加前饋神經網絡(feedforward neural network, FNN)并利用注意力預測源句域的域判別器(discriminator)技術。Kobus等[6]提出將詞級特征(word-level features)附加到NMT的嵌入(Embedding)層來控制域并預測源句域標簽。

  2. 干預神經網絡訓練:Chen等[7]使用域分類器修改NMT代價函數,將域分類器輸出概率轉化為域權重,使用驗證數據訓練該分類器。后續Wang等[8]提出了NMT句子選擇和加權的聯合框架。Varga[9]將微調(fine tuning)應用于從可比語料中提取的平行數據。為防止域內數據微調后域外退化,后續Praveen等[10]提出了一種保持域外模型分布的基于知識蒸餾的擴展微調技術。Dou等[11]直接學習出源域和目標域之間的差異,并利用該差異改進模型的訓練。Chu等[12]集成多域和微調,提出一種混合微調(mixed-fine tuning)技術,較好地解決了因域內數據量小而導致的微調過擬合問題。此外,針對微調過程中的過擬合問題,Miceli等[13]探索了正則化(regularization)技術。

  3. 干預神經網絡解碼:Adams等[14]提出一種淺融合(shallow fusion)解碼算法,先在大規模單語數據上訓練語言模型,然后結合語言模型與預訓練的NMT模型,加權評估概率以生成下一個單詞。該算法可以用于低資源域適應NMT。Freitag等[15]提出將域外模型和微調后的域內模型集成解碼。Khayrallah等[16]提出了一種基于堆棧(stack-based)的詞格(word lattices)解碼算法。在域適應實驗中,詞格由統計機器翻譯生成,最終的解碼效果優于傳統解碼。

  1.2 以數據為中心的研究

  以數據為中心的思路更加適合快速實現工程應用,代表性研究主要包括:

  1. 利用域內單語數據:域內單語數據不易直接用于NMT的語言模型,Currey等[17]將目標域單語數據復制到源域,并使用復制的數據訓練NMT。Zhang等[18]使用雙語詞典和單語數據通過預測翻譯和句子排序多任務學習來加強NMT編碼器。Cheng等[19]利用NMT作為自編碼器對單語數據進行重構,將源域單語數據和目標域單語數據同時用于NMT。

  2. 利用域外高質量平行數據:通過利用大規模高質量平行數據訓練得到通用機器翻譯模型,再遷移到特定目標域。相關研究與以模型為中心的干預神經網絡訓練研究中微調、混合微調有交疊。Wang等[20]將統計機器翻譯中的數據選擇(data selection)思想用于NMT,根據句子嵌入相似性(sentence embedding similarity)從域外數據中選擇接近域內數據的句子。Van Der Wees等[21]提出了一種動態數據選擇方法,在NMT的不同訓練階段采用不同的訓練樣本集。

  3. 利用未知質量平行數據:對于互聯網上的富資源語言,比較容易獲得大規模平行句子。這些包含多域的平行句子混在一起反而與某個具體域關聯度不顯著,更有甚者還有可能包含錯誤[22]。對同時針對某個具體域的情況,Hu等[23]已經擁有一定規模的單語或雙語域詞集、域文本文檔等資源。劉歡等[24]從多域的平行句子中挑選高質量旅游域平行句子進行數據增強。上述場景比較接近真實應用中的數據環境,如何利用這類未知質量的平行數據,實現適應具體域的NMT是一個更具體、更實用的研究問題。圍繞該研究問題,我們定量分析了兩種域適應量度,嘗試提出一種兩階段減量學習新思路。

  2 域適應量度

  為了定量計算源域與目標域之間的適應程度,首先計算源域數據詞表Vs和目標域數據詞表Vt的并集(V={v_{1}, v_{2}, cdots, v_{n}}),接著根據n維向量基V分別統計得到源域數據的詞頻向量(S={s_{1}, s_{2}, cdots, s_{n}})和目標域數據的詞頻向量(T={t_{1}, t_{2}, cdots, t_{n}}),最后采用統計學上的KL散度(kullback-leibler divergence, KLD)和最大均差(maximum mean discrepancy, MMD)來衡量源域與目標域的差異程度。

  2.1 KL散度

  兩個詞頻向量S與T的散度公式如下:

  2.2 最大均差

  兩個詞頻向量S與T的最大均差公式(采用高斯核函數(k(x, y))改寫后的可計算版本)如下:

  最大均差是遷移學習尤其是域適應算法中使用最廣泛的一種損失函數,主要用來度量兩個不同但相關的分布之間的距離[26]。

  2.3 量度分析

  由于遷移學習任務是機器翻譯,因此還存在兩對源目標概念。如圖1所示,源域和目標域的數據都是平行句對,而根據機器翻譯方向,源語言是A而目標語言是B。分別統計出源域A語言句對與目標域A語言句對之間的KLD和MMD、源域B語言句對與目標域B語言句對之間的KLD和MMD以及源域平行句對與目標域平行句對之間的KLD和MMD。

  對已有的3組英漢平行句子語料進行了統計分析。其中LAW07語料包含源域21942400句對,LAW08語料包含源域5899520句對,LAW09語料包含源域5710080句對,這3組語料都包含完全相同的目標域50000句對。得到英漢語料域適應量度數值如表1所示(表中數值為乘以(10^6)后的結果)。

  表1 英漢語料域適應量度

  | 源語料(句對數) | 目標語料(句對數) | KLD×10? | MMD×10? |

  | LAW07.train.eng(21942400) | LAW07.test.eng(50000) | 11.028 | 21.935 |

  | LAW08.train.eng(5899520) | LAW08.test.eng(50000) | 1.144 | 4.292 |

  | LAW09.train.eng(5710080) | LAW09.test.eng(50000) | 1.098 | 2.384 |

  | LAW07.train.zho(21942400) | LAW07.test.zho(50000) | 93.858 | 262.260 |

  | LAW08.train.zho(5899520) | LAW08.test.zho(50000) | 9.254 | 99.182 |

  | LAW09.train.zho(5710080) | LAW09.test.zho(50000) | 8.911 | 69.141 |

  | LAW07.train.engzho(43884800) | LAW07.test.engzho(100000) | 41.145 | 30.041 |

  | LAW08.train.engzho(11799040) | LAW08.test.engzho(100000) | 4.695 | 20.027 |

  | LAW09.train.engzho(11420160) | LAW09.test.engzho(100000) | 4.297 | 19.550 |

  表1中的數值表明,無論從英語、漢語各自單語視角還是從英漢雙語視角看,LAW09語料源域和目標域更加接近。分析表1數值可知,語料規模越大,域適應性不一定更強,規模最大的LAW07語料域適應性最差,規模最小的LAW09語料域適應性最好。

  3 減量學習

  在上一節域適應量度統計分析結果的啟發下,探索一種工程級減量學習新思路,以數據為中心,充分發揮未知質量平行數據的規模優勢,實現高效域NMT。

  3.1 框架

  減量學習框架如圖2所示,主要包括域過濾器(domain filter)、質量過濾器(quality filter)以及3個相同的NMT訓練器(NMT trainer)。執行該框架的前置數據包括通用平行句子(common parallel sentences)和域文本資源(domain text resources)。其中,通用平行句子是指大規模、易獲得、域不明確(也可能是多域相關)、可能包含錯誤的雙語數據;而域文本資源可以是單語或雙語數據,例如域詞集、域文本文檔等。

  上述減量學習框架是一種獨立于具體的過濾算法、機器翻譯算法、源語言目標語言的元框架。以法律域英漢機器翻譯為例,描述減量學習框架的執行過程:

  1. 第1階段減量學習:域過濾器根據域文本資源對通用平行句子中的每對句子進行屬于法律域和不屬于法律域的二值分類,最終過濾得到域平行句子(domain parallel sentences)。接著利用NMT訓練器分別在通用平行句子和域平行句子上訓練得到通用英漢NMT模型和法律域英漢NMT模型。

  2. 第2階段減量學習:先采用法律域英漢NMT模型翻譯域平行句子中的每個英語句子,接著在質量過濾器中調用萊文斯坦(levenshtein)字符串距離函數,計算原有漢語句子與機器翻譯輸出的漢語句子之間的相似度,根據預設閾值過濾掉相似度較低的句對,最終得到高質量域平行句子(high quality domain parallel sentences)并再次訓練得到優化的法律域英漢NMT模型。此處預設閾值為0.9,以保證過濾的嚴格性。

  整個框架能夠訓練出3個英漢NMT模型,其中通用英漢NMT模型僅用于實驗對比參照。

  3.2 算法

  圍繞實際的域適應NMT需求,根據減量學習框架設計了兩階段減量學習NMT算法,具體流程如圖3所示。

  算法說明:

  輸入:初始訓練集(train,通用平行句子)、開發集(dev,域平行句子)、測試集(test,域平行句子)、域文本資源(dtr)。

  輸出:優化的域NMT模型(odnmt)。

  核心步驟:

  1. 第7行:訓練通用NMT模型(cnmt),僅用于對比。

  2. 第8行:通過域過濾器(DomainFilter.filter)從通用平行句子中篩選出域平行句子(train)。

  3. 第9行:利用域平行句子訓練域NMT模型(dnmt)。

  4. 第11-14行:使用域NMT模型翻譯域平行句子中的源語言句子,得到機器譯文(mtout)。

  5. 第15行:通過質量過濾器(QualityFilter.filter)對比機器譯文與人工譯文,篩選出高質量域平行句子(train)。

  6. 第16行:利用高質量域平行句子訓練優化的域NMT模型(odnmt)。

  關鍵實現:

  NMT訓練器(NMTTrainer.train):采用基于注意力機制的編碼器-解碼器實現①。

  域過濾函數(DomainFilter.filter):采用基于字符串-頻率索引(string-frequency index, SFI)的文本分類(SFITC)算法實現[27],適合短文本過濾,時空效率高。

  質量過濾函數(QualityFilter.filter):采用集成機器翻譯過濾算法實現[28],調用萊文斯坦字符串距離函數計算句子相似度,工程實現簡單。

  4 實驗

  為了驗證減量學習的有效性與高效性,進行了法律域英漢NMT實驗。

  4.1 實驗環境與數據

  4.1.1 示范驗證系統

  根據減量學習框架實現了兩階段減量學習NMT算法,集成的基于注意力機制的編碼器-解碼器超參數如下:神經元數(num_units=512)、編碼器/解碼器層數(num_encoder_layers=num_decoder_layers=4)、訓練輪數(epoch=10)、批量規模(batch_size=128)、束搜索寬度(beam_width=10),其他參數保持缺省值。最終增加交互界面實現Web服務器,通過互聯網發布英漢NMT應用①。

  4.1.2 實驗數據制備

  域過濾器構建:抓取英語法律詞匯76792條,構建法律域雙語詞集;抓取漢英法律文本及學術論文,得到1346519條法律域雙語句集;抓取其他域學術論文,構建2850764條其他域雙語句集。

  平行句庫:人工構建100000對英漢法律域平行句子,等分為開發集(50000句對)和測試集(50000句對)。

  訓練集:收集整理21942400對英漢平行句子(LAW07語料)作為初始訓練集,經兩階段減量學習后得到LAW08語料(5899520句對)和LAW09語料(5710080句對)。

  預處理:漢語句子處理為空格分割的單字,英語句子處理為空格分割的小寫單詞。

  4.2 實驗結果與分析

  4.2.1 基礎實驗結果

  英漢NMT實驗結果如表2所示,采用BLEU(BLEU4)、chrF2、TER三個指標評價模型性能(BLEU和chrF2數值越大越好,TER數值越小越好)。

  表2 英漢NMT模型結果

  | 語料 | 訓練集句對數 | 訓練集詞表規模 | 訓練集Token數 | 訓練步數 | BLEU | chrF2 | TER |

  | LAW07 | 21942400 | 326515 | 479825064 | 1714250 | 45.41 | 38.62 | 40.21 |

  | LAW08 | 5899520 | 157432 | 136738636 | 460900 | 47.13 | 40.14 | 40.13 |

  | LAW09 | 5710080 | 152340 | 133156728 | 446100 | 47.88 | 40.77 | 38.99 |

  結果分析:

  兩階段減量學習減少了訓練語料規模,但模型性能持續提升,LAW09語料訓練的模型各項指標最優。

  訓練步數大幅減少,LAW09的訓練步數僅為LAW07的四分之一左右,驗證了減量學習的高效性。

  4.2.2 學習曲線分析

  英漢NMT實驗的3個NMT模型訓練過程中的學習曲線如圖5所示(橫坐標為訓練步,縱坐標為BLEU)。

  結果分析:訓練步最少的LAW09模型BLEU值最高,說明減量學習能夠在減少訓練開銷的同時,獲得更優的模型性能。

  4.2.3 BPE預處理實驗

  采用BPE(byte pair encoding)子詞切分工具①對3組語料中的英語句子進行32k詞表預處理后,重新訓練NMT模型,實驗結果如表3所示。

  表3 基于BPE的英漢NMT模型結果

  | 語料 | 訓練集句對數 | 訓練集詞表規模 | 訓練集Token數 | 訓練步數 | BLEU | chrF2 | TER |

  | LAW07.BPE | 21942400 | 32134 | 490060812 | 1714250 | 46.75 | 39.36 | 39.08 |

  | LAW08.BPE | 5899520 | 32033 | 139420536 | 460900 | 48.02 | 40.73 | 39.34 |

  | LAW09.BPE | 5710080 | 32018 | 135699728 | 446100 | 48.69 | 41.24 | 38.25 |

  結果分析:

  BPE預處理壓縮了詞表規模,有效處理未登錄詞問題,所有模型性能均有所提升。

  兩階段減量學習框架對采用BPE預處理的模型依然有效,LAW09.BPE模型性能最優,驗證了框架的通用性。

  4.3 實驗結論

  綜合域適應量度統計結果與法律域英漢NMT實驗結果,得出以下結論:

  1. 法律域英漢NMT模型的BLEU評分排序與語料的KLD和MMD數值排序完全吻合,驗證了KL散度和最大均差能夠有效定量度量域適應NMT中源域與目標域語料的適應程度。

  2. 減量學習是有效的域適應策略:域過濾增強了訓練語料的域適應性,質量過濾提高了訓練語料的域相關譯文質量。

  3. 兩階段減量學習NMT算法只需原來訓練步的四分之一左右,即可提高2個多的BLEU點,驗證了減量學習框架能夠高效達到最優NMT性能。

  4. 對于域NMT模型訓練,關鍵在于高質量域相關語料,而非單純追求語料規模,減量學習為從大規模未知質量語料到高質量域相關語料的數據工程提供了有益嘗試。

  5 結論

  圍繞域適應NMT問題,采用以數據為中心的思路,充分發揮未知質量平行數據的規模優勢,通過域過濾和質量過濾兩階段提高平行數據的域關聯度和譯文質量。最終在減量學習元框架下集成基于注意力機制的編碼器-解碼器用以實現NMT訓練器,并在法律域英漢機器翻譯實驗中驗證了所提減量學習的效果。

  下一步研究主要關注域知識建模和域知識干預NMT模型研究:準備構建顯式的多語言域知識圖譜,增強跨語言復雜域知識的神經可計算性,進一步提升域適應NMT的譯文質量;在減量學習元框架中試驗語義過濾和形態語義集成過濾等更具性能潛力的算法,并將相關研究成果遷移到其他適合的域NMT應用當中。

  參考文獻

  [1] TAN Z X, WANG S, YANG Z H, et al. Neural machine translation: a review of methods, resources, and tools[J]. AI Open, 2020, 1: 5-21.

  [2] 崔磊, 周明. 統計機器翻譯領域自適應綜述[J]. 智能計算機與應用, 2014, 4(6): 31-34.

  [3] CHU C H, WANG R. A survey of domain adaptation for neural machine translation[C]∥Proceedings of the 27th International Conference on Computational Linguistics. [S. l.]: ICCL, 2018: 1304-1319.

  [4] TOBIAS D, FELIX H. Using target-side monolingual data for neural machine translation through multi-task learning[C]∥Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. [S. l.]: EMNLP, 2013: 1500-1505.

  [5] BRITZ D, LE Q, PRYZANT R. Effective domain mixing for neural machine translation[C]∥Proceedings of the Second Conference on Machine Translation. Copenhagen: Association for Computational Linguistics, 2017: 118-126.

  [6] KOBUS C, CREGO J, SENELLART J. Domain control for neural machine translation[C]∥Proceedings of the International Conference Recent Advances in Natural Language Processing. [S. l.]: ICRANLP, 2016: 372-378.

  [7] CHEN B X, CHERRY C, FOSTER G, et al. Cost weighting for neural machine translation domain adaptation[C]∥Proceedings of the First Workshop on Neural Machine Translation. Vancouver: Association for Computational Linguistics, 2017: 40-46.

  [8] WANG R, UTIYAMA M, FINCH A, et al. Sentence selection and weighting for neural machine translation domain adaptation[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(10): 1727-1741.

  [9] VARGA Á. Domain adaptation for multilingual neural machine translation[C]∥Computer Science, Linguistics. [S. l.]: CSL, 2017: 64478408.

  [10] PRAVEEN D, CHRISTOF M. Fine-tuning for neural machine translation with limited degradation across in-and out-of-domain data[C]∥Proceedings of the 16th Machine Translation Summit. [S. l.]: MTS, 2017: 156-169.

  [11] DOU Z Y, WANG X Y, HU J J, et al. Domain differential adaptation for neural machine translation[C]∥Proceedings of the 3rd Workshop on Neural Generation and Translation. Hong Kong: Association for Computational Linguistics, 2019: 59-69.

  [12] CHU C H, DABRE R AJ, SADAO K. An empirical comparison of domain adaptation methods for neural machine translation[C]∥Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver: Association for Computational Linguistics, 2017: 385-391.

  [13] MICELI B A V, HADDOW B, GERMANN U, et al. Regularization techniques for fine-tuning in neural machine translation[C]∥Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen: Association for Computational Linguistics, 2017: 1489-1494.

  [14] ADAMS V, SUBRAMANIAN S, CHRZANOWSKI M, et al. Finding the right recipe for low resource domain adaptation in neural machine translation[EB/OL]. (2022-01-02)[2023-12-01]. http:∥arxiv.org/abs/2206.01137.

  [15] FREITAG M, AL-ONAIZAN Y. Fast domain adaptation for neural machine translation[EB/OL]. (2016-12-20)[2023-12-01]. http:∥arxiv.org/abs/1612.06897.

  [16] KHAYRALLAH H, KUMAR M, DU H, et al. Neural lattice search for domain adaptation in machine translation[C]∥Proceedings of the Eighth International Joint Conference on Natural Language Processing. Taipei: AFNLP, 2017: 20-25.

  [17] CURREY A, MICELI BARONE A V, HEAFIELD K. Copied monolingual data improves low-resource neural machine translation[C]∥Proceedings of the Second Conference on Machine Translation. Copenhagen: Association for Computational Linguistics, 2017: 148-156.

  [18] ZHANG J J, ZONG C Q. Bridging neural machine translation and bilingual dictionaries[EB/OL]. (2016-10-24)[2023-12-01]. http:∥arxiv.org/abs/1610.07272.

  [19] CHENG Y, XU W, HE Z J, et al. Semi-supervised learning for neural machine translation[C]∥Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin: Association for Computational Linguistics, 2016: 1965-1974.

  [20] WANG R, FINCH A, UTIYAMA M, et al. Sentence embedding for neural machine translation domain adaptation[C]∥Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver: Association for Computational Linguistics, 2017: 560-566.

  [21] VAN DER WEES M, BISAZZA A, MONZ C. Dynamic data selection for neural machine translation[C]∥Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen: Association for Computational Linguistics, 2017: 1400-1410.

  [22] SAUNDERS D. Domain adaptation and multi-domain adaptation for neural machine translation: a survey[EB/OL]. (2021-04-14)[2023-12-01]. http:∥arxiv.org/abs/2104.06951.

  [23] HU J J, XIA M Z, NEUBIG G, et al. Domain adaptation of neural machine translation by lexicon induction[C]∥Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence: Association for Computational Linguistics, 2019: 2989-3001.

  [24] 劉歡, 劉俊鵬, 黃鍇宇, 等. 面向低資源俄漢機器翻譯的領域適應方法[J]. 廈門大學學報(自然科學版), 2022, 61(4): 654-659.

  [25] TUAN NGUYEN A, TOAN T, YARIN G, et al. KL guided domain adaptation[EB/OL]. (2021-01-14)[2023-12-01]. https:∥arxiv.org/abs/2106.07780v2.

  [26] WANG W, LI H J, DING Z M, et al. Rethink maximum mean discrepancy for domain adaptation[EB/OL]. (2020-07-01)[2023-12-01]. http:∥arxiv.org/abs/2007.00689.

  [27] LIU W Y, WANG L, YIM Z, et al. Active multi-field learning for spam filtering[J]. Comput Informatics, 2015, 33: 1400-1427.

  [28] LIU W Y, WANG L. Ensemble machine translation to filter low quality corpus[C]∥2022 International Conference on Asian Language Processing (IALP). Singapore: IEEE, 2022: 500-504.

  [29] 劉伍穎, 王挺. 結構化集成學習垃圾郵件過濾[J]. 計算機研究與發展, 2012, 49(3): 628-635.

  [30] POPOVI? M. chrF: character n-gram F-score for automatic MT evaluation[C]∥Proceedings of the Tenth Workshop on Statistical Machine Translation. Lisbon: Association for Computational Linguistics, 2015: 392-395.

  [31] POST M. A call for clarity in reporting BLEU scores[C]∥Proceedings of the Third Conference on Machine Translation: Research Papers. Brussels: Association for Computational Linguistics, 2018: 186-191.

  [32] SENNRICH R, HADDOW B, BIRCH A. Neural machine translation of rare words with subword units[C]∥Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin: Association for Computational Linguistics, 2016: 1715-1725.

聲明:

①文獻來自知網、維普、萬方等檢索數據庫,說明本文獻已經發表見刊,恭喜作者.

②如果您是作者且不想本平臺展示文獻信息,可聯系學術顧問予以刪除.

《道路交通事故責任鑒定標準相關要點分析》
主站蜘蛛池模板: 国产综合欧美在线看| 欧美日本精品在线| 热99久久精品| 国产精品女视频| 久久久久久久有限公司| 日本视频久久久| 日本久久亚洲电影| 欧美中日韩一区二区三区| 99在线视频免费观看| www亚洲精品| 俺去了亚洲欧美日韩| 99亚洲国产精品| 国产色综合天天综合网| 国产专区在线视频| 国产日韩欧美精品在线观看| 久99久在线| 国产男女激情视频| 国产精品欧美在线| 岛国视频一区| 91精品国产高清久久久久久 | 精品中文字幕在线观看| 久久99久久精品国产| 国产欧美日韩亚洲精品| 国产日韩中文字幕| 国产成人精品日本亚洲11| 99精品视频在线看| 五月天在线免费视频| 日本在线播放不卡| 精品国产拍在线观看| 国产成人精品在线| 亚洲精品一区二区三| 欧美一级成年大片在线观看| 日本一区视频在线观看免费| 久久日韩精品| 国产精品一 二 三| 视频一区不卡| 久久riav| 深夜福利日韩在线看| 日本精品久久久久久久久久| 久久日韩精品| 91久久久久久久久久久久久|