掌上彩票

  • 掌上彩票
  • 掌上彩票
  • 掌上彩票
  • 掌上彩票app
  • 掌上彩票
  • 掌上彩票
  • 掌上彩票ע
  • 掌上彩票¼
  • 掌上彩票
  • 掌上彩票Ƹ
  • 掌上彩票淨
  • 掌上彩票
  • 掌上彩票ֱ
  • 掌上彩票ֻ
  • 掌上彩票԰
  • 掌上彩票׿
  • 掌上彩票Ƶ
  • 您所在的位置 > 掌上彩票 > 联系我们 >
    联系我们Company News
    谷歌(GOOG.US)发布Translatotron直接语音翻译体系,同。声传译或受要挟
    发布时间: 2019-07-31 来源:未知 点击次数:

    新智元

    本文来自 微信公多号“新智元”。

    让说迥异语言的人更容易地、直接地相互交流,这是语音到语音的翻译体系(Speech-to-speech

    translation)的现在标,如许的体系在昔时几十年里取得了不错的挺进。

    今天,谷歌发布Translatotron语音翻译体系,这是第一个能够直接将一小我的声音从一栽语言转换成另一栽语言,同。时保持发言人的声音和节奏的翻译模型。

    传统上,语音翻译体系清淡有3个自力的片面:自动语音识别将源语音转录为文本,机器翻译将转录的文本翻译成现在标语言,末了,文本到语音相符成(TTS)体系将翻译文本转换成现在标语言的语音。

    很多商业语音到语音翻译的产品都采用如许的体系,包括Google Translate。但是,这类体系倚赖于中间文本,实在率不高,而且效果较矮。

    谷歌的新工具Translatotron屏舍了将语音翻译为文本再返回语音的步骤,而是采用端到端的技术,直接将发言者的声音翻译成另一栽语言。这使它能够迅速地翻译,但更主要的是,能够更容易响应发言人的语协调节奏。

        在论文《基于序列到序列模型的直接语音到语音翻译》(Direct speech-to-speech translation with a

    sequence-to-sequence

    model)中,谷歌的钻研人员挑出一栽基于单个仔细力序列到序列模型的直接语音到语音翻译的新实验体系,该体系不倚赖于中间文本外示。

    这个体系被称为Translatotron,避免了将义务划分为自力的阶段,比级联体系更有上风,包括推理速度快、自然地避免了识别和翻译之间的复相符舛讹,能够在翻译后保留原发言者的声音,以及能够更益地处理不必要翻译的单词(如名称和特著名词)。

    Translatotron:不倚赖中间文本,直接翻译语音

    语音翻译端到端模型的展现首于2016年,那时钻研人员表清新行使单个序列到序列模型进走语音到文本翻译的可走性。2017年,吾们表清新这栽端到端模型能够超越级联模型(cascade

    models)。

    近来有很多做事进一步改进了端到端语音到文本翻译模型的手段,包括同。样来自谷歌的行使弱监督数。据的做事(https://arxiv.org/abs/1811.02050)。

    Translatotron更进一步,表清新单个序列到序列模型能够直接将一栽语言的语音翻译成另一栽语言的语音,而不必要像级联体系那样倚赖于任何一栽语言的中间文本外示。

    Translatotron基于一个sequence-to-sequence网络,它将源声谱图(spectrograms)行为输入,生成现在标语言翻译内容的声谱图。

        输入和生成的声谱图

    此外,Translatotron还行使了另外两个单独训练的组件:一个神经声音编码器(neural

    vocoder),能够将输做声谱图转换为时域波形;另外,还能够选择行使一个speaker

    encoder,用于在相符成翻译语音时保持源speaker的语音特征。

    在训练过程中,序列到序列模型行使一个多义务现在标展望源和现在标转录文本,同。时生成现在标声谱图。然而,推理过程中不必要行使转录文本或其他中间文本外示。

        Translatotron的模型组织

    性能

    谷歌经历测量BLEU分数。来验证Translatotron的翻译质量。该分数。是经历语音识别体系转录的文本计算的。固然效果落后于传统的级联体系,但已经表清新端到端直接语音到语音转换的可走性。

        对比Translatotron到基线级联手段的直接语音到语音翻译输出,在这栽情况下,两个体系都挑供正当的翻译并行使相通的规范语音很自然的发言。

    保持声音特征

    经历结相符扬声器编码器网络,Translatotron还能够在翻译的语音中,保留原首发言者的声音特征,这使得翻译的语音听首来更自然,不那么逆耳反耳。

    此功能行使了之前针对TTS的演讲者验证和演讲者调整的Google钻研。扬声器编码器在演讲者验证义务上进走预训练,学习从简短的示例话语对扬声器特性进走编码。在该编码上调节频谱图解码器,即使内容是在迥异的语言中,也能够相符成具有相通扬声器特性的语音。

    谷歌挑供了诸多行使示例,如下面的例子,Translatotron将西班牙语对话转换为英语,下面的音频别离是西班牙语输入、真人参考翻译,以及Translatotron的翻译。

        结论

    谷歌声称,Translatotron是第一个能够直接将一栽语言的语音,翻译成另一栽语言的语音的端到端模型。它还能够在翻译的语音中保留源发言者的声音。谷歌期待这项做事能够行为异日端到端语音转语音翻译体系钻研的首点。

    该新闻由智通财经网挑供