208. 真的吗？我不信

一秒记住【顶点小说】 dingdian666.com，更新快，无弹窗！ 传统的循环类模型对比较长的句子处理能力较差，这在翻译任务中是比较影响用户体验的。相信尝试机翻过长篇文章的人都有类似的体会。
 “我直接整篇文章复制黏贴进去，然后把翻译结果再复制黏贴出来。”
 这是大多数人第一时间的想法，直接一步到位，这是坠吼的。
 只可惜，如果这么做，最后翻译出来的结果只能是一团糟。只要是超过四五十字的文本，就很容易翻译得非常混乱了。
 稍微聪明一点的人会发现，如果一段一段去复制翻译，得出的翻译结果就会好很多。
 如果一句一句去翻译，质量又会再次上升一些。
 虽然有点麻烦，操作也更繁琐了，但胜在不用动脑子。总归还是比自己辛辛苦苦哼哧哼哧地去翻译要轻松。
 这里面有很大的一部分原因，就是翻译技术在长距离上容易遗忘。
 “模型结构变得简单其实没什么奇怪的，数据的数量、质量以及训练的策略更加重要。让人眼花缭乱的那些算子们大部分情况下并不解决实际问题，只是在特定的任务上抽奖罢了。”
 对于同事们的将信将疑，孟繁岐也能理解。若是大家都很容易能接受，那早就有人做了类似的事情了。
 “思想和方法的改变才是根本的东西，比如AlexNet之后，许多人都在魔改那一套网络，各种算子改来改去，这个小一点那个大一点，这里多一点那里少一点。”
 “缝缝补补只有非常微小的提升。”
 “而残差链接则是全新的思想，应用了这个技术之后，各种算子反而不需要那么花里胡哨，就统一使用相同的设置和配置，一样能够力压群雄。”
 伊利亚总体来说还是支持这种革命式的改变的，只是大家都觉得合理的细微变化，自然就无法取得真正的突破。
 “我先试试看，不知道好不好用。”伊利亚是非常讲数据和实验结果。
 别说是他觉得这个思路有机会，就算是他本人觉得这玩意不靠谱。只要能有一套理论逻辑把它解释通顺，伊利亚都愿意实现它尝试一下看看效果。
 “不过，纯注意力机制的t方法在早期有不小的缺陷，模型小了效果不好，数据少了效果不好，训练方式不对效果还是不好。”
 看伊利亚和几个将信将疑的同事开始了尝试，孟繁岐心中清楚，他们恐怕是很难直接取得成功的。但这并不是方法本身的问题，而是诸多因素一起的限制。
 “他们到时候不信，这倒也没什么关系，等英伟达的那批泰坦显卡到了，我给他们整个大的。”
 语言模型，就是要大！相比现在流行的办法，只要模型做大，别的技巧就算不用那也是降维打击。
 切到自己的工作这边来，文字合成语音，实际上和语音识别技术是一对孪生兄弟。
 一个是从文本生成语音，让机器说话，另一个则是识别语音成为文本，让机器在比较熟悉的语言领域处理这些信息。
 孟繁岐既然动了手，自然两兄弟都打包一起做了。
 先做公司有任务的文字生成语音这一边，这个技术当然不仅仅只限于在翻译界面上进行简单的发音。
 “文字生成语音的应用范围还是比较广泛的，比如谷歌刚刚收购的智能家居公司，其中就可以有各种语音助手，或者是有声读物，乃至于23年开始有些起色的AI歌手和AI主播这种泛娱乐方向。”
 尤其是AI歌手，通过大量语音素材学习到一个人的嗓音特色之后，就完全可以生成海量的各种歌曲，突破了语言的限制，想让他唱什么就让他唱什么。
 妙，实在是妙啊！
 “现在的语音合成系统主要分三步走，前端预处理，声学模型和声码器。虽然深度神经网络可以更加激进地舍弃其中一些环节，但同样也会带来新的问题。”
 “我的目的只是为了完成奠基之作，推广t方法出去，不必给自己加那么大的工作量，语音不是我非常关注的方向。”
 孟繁岐的思路比较清晰，虽然重生了，倒也不必要什么工作都要复现那么到位。
 “前端处理主要是给定一个文本生产它的发音信息及语言学信息，这部分现在比较成熟，直接根据处理好的信息去学声学模型会容易不少，可以显着降低我的工作量。”
 所谓的发音信息，可以理解为字形转音形。
 比如【滚】，音形就哥悟嗯，其实就是类似拼音的一种记录方式，它比字形更接近最后的发音情况，更加一一对应。
 并且，如果只看字形，就很难处理多音字的问题，前端处理的过程中，就可以根据前后文判断这个多音字在这里到底是如何发音。
 转换成为音形之后，就不会读错了。
 再有就是语言的韵律和节奏了，最初文本生成的语音，都是机械冰冷的同一个音调，毫无感情可言，与人类相去甚远。
 目前，在感情上发音技术还是有很大的上升空间，但在节奏停顿上，已经进步很大了，不会断句断在非常奇怪的位置上。
 模型的输入是被语言系统标注后的音素，输出则是梅尔频谱。频谱最后通过声码器，才会变成语音。
 小学二年级的同学们都知道，信号有两种表示方式，时域和频域。一般的语音、音乐都是时域信号，对这些信号做傅里叶变换，就能够得到信号的频域表示。
 梅尔频谱就是一种压缩之后的频谱，为了尽量减少数据的大小，同时也更加适配人耳的需求。
 比如人耳对低频敏感，对高频则分不太清，因而梅尔频谱对不同的范围做了不同程度的取舍，用更小的数据量尽可能地还原了声音的信息。
 这项80多年前的技术，仍旧被广泛使用当中。
 “虽然我主要做的东西是第二步中的声学模型，但现在的第三步声码器有些太落后了，我最好同时也做一版更新，搭配使用。”
 声码器是根据梅尔频谱图生成声音波形的生成式模型，这正好在孟繁岐已经做了不少工作的方向上。
 顺手为之，直接把文本和语音之间的来回转换一步给它做到位了。
 此时此刻，若是伊利亚等人知道了孟繁岐的打算，肯定会化身鲁豫，本能地说出：“真的吗？我不信。”
 哪有进入一个不大一样的领域之后，不造螺丝直接造飞机的？
 只是让你做一个翻译页面上的本文发声功能，你小子怎么直接就想着给整个技术方向都颠覆了呢？

章节报错（免登陆）

阅读记录

208. 真的吗？我不信