游戏攻略网
当前位置: 首页 游戏攻略

nlp所有框架(斯坦福的NMT代码库和哈佛的NMT工具包)

时间:2023-08-19 作者: 小编 阅读量: 1 栏目名: 游戏攻略

本论文展示了一个全新的能实现开放词汇神经机器翻译的词-字符解决方法。我们建立了一个混合的系统,能够实现大部分的词级翻译,并可查阅罕见词的字母组成。我们字符级的循环神经网络能计算源词的表征,并能在需要时恢复未知的目标词。我们的最佳系统在这个任务上达到了新的最佳表现:20.7BLEU分。我们证明了我们的字符模型不仅能成功地学习生成形式很好的捷克语词,还能为英语源词建立了正确的表征。

机器之心报道


斯坦福大学NLP组开放神经机器翻译代码库

发布地址:http://nlp.stanford.edu/projects/nmt/

参与成员:

代码库

代码库:https://github.com/lmthang/nmt.hybrid

论文:使用混合词-字符模型实现开放词汇神经机器翻译(Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-character Models)

摘要:几乎之前所有的神经机器翻译(NMT)使用的词汇都受限,随后可能用一个方法来修补未知的单词。本论文展示了一个全新的能实现开放词汇神经机器翻译(open vocabulary NMT)的词-字符解决方法。我们建立了一个混合的系统,能够实现大部分的词级(word level)翻译,并可查阅罕见词的字母组成。我们字符级的循环神经网络能计算源词的表征,并能在需要时恢复未知的目标词。这种混合的方法还有一个双重优点是,与基于字符的网络相比,它更快且更容易训练;同时,它不像基于词的模型那样会产生未知的词。在 WMT' 15 英语-捷克语的翻译任务上,这种混合方法还实现了一个额外的2.1 BLEU 分的提升——超过已经能处理未知单词的模型 11.4 BLEU 分。我们的最佳系统在这个任务上达到了新的最佳表现:20.7 BLEU 分。我们证明了我们的字符模型不仅能成功地学习生成形式很好的捷克语词(这是一种词汇复杂高度屈折的语言),还能为英语源词建立了正确的表征。

代码库:https://github.com/lmthang/nmt.hybrid


预处理的数据


训练集(包含 1580 万个句子对)

英语训练集(train.en):http://nlp.stanford.edu/projects/nmt/data/wmt15.en-cs/train.en

捷克语训练集(train.cs):http://nlp.stanford.edu/projects/nmt/data/wmt15.en-cs/train.cs

测试集:

newstest2013.en:http://nlp.stanford.edu/projects/nmt/data/wmt15.en-cs/newstest2013.en

newstest2013.cs:http://nlp.stanford.edu/projects/nmt/data/wmt15.en-cs/newstest2013.cs

newstest2014.en:http://nlp.stanford.edu/projects/nmt/data/wmt15.en-cs/newstest2014.en

newstest2014.cs:http://nlp.stanford.edu/projects/nmt/data/wmt15.en-cs/newstest2014.cs

newstest2015.en:http://nlp.stanford.edu/projects/nmt/data/wmt15.en-cs/newstest2015.en

newstest2015.cs:http://nlp.stanford.edu/projects/nmt/data/wmt15.en-cs/newstest2015.cs

词汇库(最常见的词):

vocab.1K.en:http://nlp.stanford.edu/projects/nmt/data/wmt15.en-cs/vocab.1K.en

vocab.1K.cs:http://nlp.stanford.edu/projects/nmt/data/wmt15.en-cs/vocab.1K.cs

vocab.10K.en:http://nlp.stanford.edu/projects/nmt/data/wmt15.en-cs/vocab.10K.en

vocab.10K.cs:http://nlp.stanford.edu/projects/nmt/data/wmt15.en-cs/vocab.10K.cs

vocab.20K.en:http://nlp.stanford.edu/projects/nmt/data/wmt15.en-cs/vocab.20K.en

vocab.20K.cs:http://nlp.stanford.edu/projects/nmt/data/wmt15.en-cs/vocab.20K.cs

vocab.50K.en:http://nlp.stanford.edu/projects/nmt/data/wmt15.en-cs/vocab.50K.en

vocab.50K.cs:http://nlp.stanford.edu/projects/nmt/data/wmt15.en-cs/vocab.50K.cs

词典(从对齐的数据中提取出来的,dict.en-cs):http://nlp.stanford.edu/projects/nmt/data/wmt15.en-cs/dict.en-cs

字符库:

vocab.char.200.en (http://nlp.stanford.edu/projects/nmt/data/wmt15.en-cs/vocab.char.200.en)

vocab.char.200.cs (http://nlp.stanford.edu/projects/nmt/data/wmt15.en-cs/vocab.char.200.cs)

注:我们的论文《Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models》中使用了这个数据集。


训练集(包含 450 万个句子对)

英语训练集(train.en):http://nlp.stanford.edu/projects/nmt/data/wmt14.en-de/train.en

德语训练集:(train.de):http://nlp.stanford.edu/projects/nmt/data/wmt14.en-de/train.de

测试集:

newstest2012.en:http://nlp.stanford.edu/projects/nmt/data/wmt14.en-de/newstest2012.en

newstest2012.de:http://nlp.stanford.edu/projects/nmt/data/wmt14.en-de/newstest2012.de

newstest2013.en:http://nlp.stanford.edu/projects/nmt/data/wmt14.en-de/newstest2013.en

newstest2013.de:http://nlp.stanford.edu/projects/nmt/data/wmt14.en-de/newstest2013.de

newstest2014.en:http://nlp.stanford.edu/projects/nmt/data/wmt14.en-de/newstest2014.en

newstest2014.de:http://nlp.stanford.edu/projects/nmt/data/wmt14.en-de/newstest2014.de

newstest2015.en:http://nlp.stanford.edu/projects/nmt/data/wmt14.en-de/newstest2015.en

newstest2015.de:http://nlp.stanford.edu/projects/nmt/data/wmt14.en-de/newstest2015.de

词汇库(最常见的 5 万个词):

vocab.50K.en (http://nlp.stanford.edu/projects/nmt/data/wmt14.en-de/vocab.50K.en)

vocab.50K.de (http://nlp.stanford.edu/projects/nmt/data/wmt14.en-de/vocab.50K.de)

词典(从对齐的数据中提取出来的,dict.en-de):http://nlp.stanford.edu/projects/nmt/data/wmt14.en-de/dict.en-de

注:我们的论文《Effective Approaches to Attention-based Neural Machine Translation》中使用了这个数据集。另外,因为历史上的原因,我们对合成词(compound words)做了拆分。比如,rich-text format --> rich ##AT##-##AT## text format.


训练集(包含 13.3 万个句子对)

英语训练集(train.en):http://nlp.stanford.edu/projects/nmt/data/iwslt15.en-vi/train.en

越南语训练集(train.vi):http://nlp.stanford.edu/projects/nmt/data/iwslt15.en-vi/train.vi

测试集:

tst2012.en:http://nlp.stanford.edu/projects/nmt/data/iwslt15.en-vi/tst2012.en

tst2012.vi:http://nlp.stanford.edu/projects/nmt/data/iwslt15.en-vi/tst2012.vi

tst2013.en:http://nlp.stanford.edu/projects/nmt/data/iwslt15.en-vi/tst2013.en

tst2013.vi:http://nlp.stanford.edu/projects/nmt/data/iwslt15.en-vi/tst2013.vi

词汇库(最常见的 5 万个词):

vocab.en:http://nlp.stanford.edu/projects/nmt/data/iwslt15.en-vi/vocab.en

vocab.vi:http://nlp.stanford.edu/projects/nmt/data/iwslt15.en-vi/vocab.vi

词典(从对齐的数据中提取出来的,dict.en-vi):http://nlp.stanford.edu/projects/nmt/data/iwslt15.en-vi/dict.en-vi

注:我们的论文《Stanford Neural Machine Translation Systems for Spoken Language Domains》中使用了这个数据集

预训练的模型

我们放出了预训练好的模型,可以直接通过我们的 Matlab 代码使用。

注:要使用这些模型,必须要一个 GPU。如果想要这些模型在 CPU 上可用,请考虑使用这个脚本:https://github.com/stanfordnlp/nmt/blob/master/code/misc/model2cpu.m


我们训练了 4 个具有同样架构的模型(全局注意、双线性形式、dropout、两层字符级模型):

1. Model 1:http://nlp.stanford.edu/projects/nmt/models/wmt15.en-cs/model1.mat

2. Model 2 :http://nlp.stanford.edu/projects/nmt/models/wmt15.en-cs/model2.mat

3. Model 3:http://nlp.stanford.edu/projects/nmt/models/wmt15.en-cs/model3.mat

4. Model 4:http://nlp.stanford.edu/projects/nmt/models/wmt15.en-cs/model4.mat


1. 全局注意、点积:http://nlp.stanford.edu/projects/nmt/models/wmt14.en-de/globalAttn-dotProduct.mat

2. 全局注意、点积、dropout:http://nlp.stanford.edu/projects/nmt/models/wmt14.en-de/globalAttn-dotProduct-dropout.mat

3. 全局注意、双线性形式、dropout:http://nlp.stanford.edu/projects/nmt/models/wmt14.en-de/globalAttn-bilinear-dropout.mat

4. 局部注意(单调)、双线性形式:http://nlp.stanford.edu/projects/nmt/models/wmt14.en-de/localAttnMono-bilinear.mat

5. 局部注意(单调)、双线性形式、dropout:http://nlp.stanford.edu/projects/nmt/models/wmt14.en-de/localAttnMono-bilinear-dropout.mat

6. 局部注意(预测)、点积、dropout:http://nlp.stanford.edu/projects/nmt/models/wmt14.en-de/localAttnPred-dotProduct-dropout.mat

7. 局部注意(预测)、双线性形式:http://nlp.stanford.edu/projects/nmt/models/wmt14.en-de/localAttnPred-bilinear.mat

8. 局部注意(预测)、双线性形式、dropout:http://nlp.stanford.edu/projects/nmt/models/wmt14.en-de/localAttnPred-bilinear-dropout.mat


1. 全局注意、双线性形式、dropout:http://nlp.stanford.edu/projects/nmt/models/iwslt15.en-vi/globalAttn-bilinear-dropout.mat

2. 全局注意、concatenate :http://nlp.stanford.edu/projects/nmt/models/iwslt15.en-vi/globalAttn-concat.mat

3. 局部注意(预测)、点积、dropout:http://nlp.stanford.edu/projects/nmt/models/iwslt15.en-vi/localAttnMono-dotProduct-dropout.mat

4. 局部注意(单调)、双线性形式、dropout:http://nlp.stanford.edu/projects/nmt/models/iwslt15.en-vi/localAttnMono-bilinear-dropout.mat

5. 局部注意(单调)、双线性形式:http://nlp.stanford.edu/projects/nmt/models/iwslt15.en-vi/localAttnMono-bilinear.mat

6. 局部注意(单调)、concatenate、dropout :http://nlp.stanford.edu/projects/nmt/models/iwslt15.en-vi/localAttnMono-concat-dropout.mat

7. 局部注意(预测)、点积、dropout:http://nlp.stanford.edu/projects/nmt/models/iwslt15.en-vi/localAttnPred-dotProduct-dropout.mat

8. 局部注意(预测)、双线性形式:http://nlp.stanford.edu/projects/nmt/models/iwslt15.en-vi/localAttnPred-bilinear.mat

9. 局部注意(预测)、concatenate、dropout:http://nlp.stanford.edu/projects/nmt/models/iwslt15.en-vi/localAttnPred-concat-dropout.mat


哈佛大学NLP组开源神经机器翻译工具包OpenNMT:已达到生产可用水平

神经机器翻译是近段时间以来推动机器翻译发展的主要推动力。今天,哈佛大学自然语言处理研究组(Harvard NLP)宣布开源了其研发的神经机器翻译系统 OpenNMT,该系统使用了 Torch 数学工具包。该研究组在官网上表示该系统已经达到生产可用的水平(industrial-strength)。

OpenNMT 可以像主要的翻译服务提供商的已投入生产的系统那样使用。该系统简单易用,易于扩展,同时也能维持效率和当前最佳的翻译准确度。

其特性包括:

安装

OpenNMT 仅需要一次 vanilla torch/cutorch 安装。它要使用 nn、nngraph 和 cunn。有(CUDA)Docker 容器可选。

快速启动

OpenNMT 包含三条指令:

1)预处理数据

th preprocess.lua -train_src data/src-train.txt -train_tgt data/tgt-train.txt -valid_src data/src-val.txt -valid_tgt data/tgt-val.txt -save_data data/demo

2)训练模型

th train.lua -data data/demo-train.t7 -save_model model

3)翻译句子

th translate.lua -model model_final.t7 -src data/src-test.txt -output pred.txt

查看指南了解更多:http://opennmt.github.io/Guide

研究

其中主要的模型基于论文 Neural Machine Translation by Jointly Learning to Align and Translate Bahdanau et al. ICLR 2015 和 Effective Approaches to Attention-based Neural Machine Translation, Luong et al. EMNLP 2015。

在基本模型上,还有大量可选项,这都要感谢 SYSTRAN(http://www.systransoft.com/)的出色工作。特别地,下面是一些实现的功能:

声明

OpenNMT 的实现使用了以下项目的代码:

    推荐阅读
  • steam棋牌游戏推荐(幸运之夜新版本亮相TGC)

    steam棋牌游戏推荐12月1日,2017腾讯游戏嘉年华正式在成都开幕,腾讯的VR社交游戏《幸运之夜》在现场发布了最新版本。VR《幸运之夜》在TGC2017上惊艳亮相《幸运之夜》新版本发布邀请好友一起游戏今年7月底,《幸运之夜》正式在Steam发布,并推出了首款游戏作品“德州扑克”。今年的TGC2017现场,《幸运之夜》全新版本便带来了对互动性方面的提升。

  • 儿童睡前故事卖火柴的小女孩大全(卖火柴的小女孩)

    在长发公主的故事里,兔子小姐变成了手持宝剑的骑士,穿过了山川和河流,战胜了地狱恶犬,最终救出了长着一头金黄色长发的熊猫先生。随着一阵空间的波动,熊猫先生和兔子小姐来到了冰天雪地的圣诞节。小女孩被这突如其来的变化惊呆了。熊猫先生没有回答,轻轻摸了摸小女孩的头。小女孩点燃了第二根火柴。熊猫先生和兔子小姐则来到壁炉前,商量起小女孩最后一个愿望。熊猫先生蹲下来,握起小女孩的手。

  • 怎样做ppr管快一点(PPR管安装方法及技巧)

    怎样做ppr管快一点PPR管安装方法及技巧首先准备好需要的材料:热熔机,小剪刀,ppr管,管件,手巾。一定要根据自己热熔ppr管的口径,准备相应的热熔头。清洁:清洁管材与管件的焊接段部位,建议用95%浓度酒精擦净。在熔接时间内迅速的将管材无旋转的垂直插入管件中,并维持5秒以上,然后按相应冷却时间冷却。热熔后做到横平竖直,美观大方。

  • 大托特包搭配技巧(大托特包搭配技巧简述)

    西装外套+托特包复古时尚的格子,由黑白交错的条纹形成,文艺而又端庄搭配撞色托特包,优雅而不失俏皮,让气场变得灵动起来内搭白色连帽卫衣,减龄又可爱,接下来我们就来聊聊关于大托特包搭配技巧?大托特包搭配技巧西装外套+托特包复古时尚的格子,由黑白交错的条纹形成,文艺而又端庄。衬衫+托特包白色的衬衫休闲慵懒,给人一种空灵的感觉以及干净纯粹的气质。

  • 刘涛电视剧口碑(电视剧景气指数第一)

    还记得3月份刘涛在和周渝民主演的《大宋宫词》中扮嫩出演少妇被很多观众吐槽。万万没想到时隔数月,刘涛带着她的新剧《星辰大海》杀回来了。目前主要的剧情线在刘涛饰演的女主简爱身上。因为小时候意外发现母亲出轨的事,得知真相的父亲激愤之下杀死母亲并自杀,简爱因此成为了一个孤女。逃出傻子家的简爱在与姑姑的争执中误伤姑姑,从此开启逃命生涯。简爱从面馆辞职走投无路,误打误撞进入大公司之后面临着同事的故意刁难。

  • 外墙装修材料有哪些 外墙装修材料有哪些类型

    外墙涂料具有装饰性良好、耐污染耐老化以及施工维修容易和价格合理的特点。一般来说釉面外墙砖有亚光面与无光面两大类。它的装饰的效果也不错,有柚木色、深灰色等等可供选择。由于它的表面的肌理很清晰,所以色泽漂亮且装饰性极强。本站,中国知名大型装修平台,装修领导品牌。

  • 世界上有哪些花(世界上有哪些花 名字)

    瓜叶菊、香豌豆、夏兰、石竹、石蒜、荷花、翠菊、睡莲、福禄考、晚香玉、万寿菊、千日红、建兰、铃兰、报岁兰、香堇、大岩桐、水仙、小草兰、瓜叶菊、蒲包花、免子花、入腊红、三色堇、百日草、鸡冠花、一串红。孔雀草、大波斯菊、金盏菊、非洲凤仙花、菊花、非洲菊、观赏凤梨类、射干、非洲紫罗兰、天堂鸟、炮竹红、菊花、康乃馨、红掌、满天星、星辰花、三角梅、虞美人。

  • 长歌行李长歌母亲是谁杀的(长歌行李长歌的简介)

    下面更多详细答案一起来看看吧!长歌行李长歌母亲是谁杀的《长歌行》李长歌母亲是自杀的。李长歌,太子李建成之女,生母则是回纥王族。父母手足均死于玄武门之变,满怀愤恨的长歌凭高超武艺逃出皇宫,并在追捕过程中制造“坠崖假死”而逃生,其后女扮男装隐瞒身份流落民间,一心只想为父母复仇,在家和国的利害冲突中,最后放弃复仇,和阿诗勒隼一起成为了民族和解的使者。

  • 什么时候喝蛋白粉增肌效果最好(什么时候喝蛋白粉增肌效果最好)

    从长远来看,这种方法被证明可以促使肌肉明显增长。如果摄入量超过一定的阈值,蛋白质的合成就会受限。如果是以乳清饮料的形式摄入乳清蛋白,运动者可以在运动结束后立即饮用。按每公斤体重1克的标准,在健身前后立即摄入以及在运动后1小时内摄入可快速吸收的碳水化合物,可以明显抑制肌肉分解,并大大促进肌肉快速和明显的增长。在这种情况下,大量分泌的胰岛素促进了氨基酸向工作中的肌肉运输,为蛋白质合成奠定基础。

  • 窦骁周冬雨山楂树之恋结局(周冬雨18岁第一次出演)

    周冬雨18岁第一次出演要说最近最火的电影,非《少年的你》莫属,上映14天,已经收获了12.45亿的票房成绩,成为现阶段最强的票房黑马而作为该片主演的周冬雨和易烊千玺,也凭借在该片中的精彩演出,演技得到大众的进一步认可作为“。