创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
男同 打屁股 首个辅助浩瀚话和方言混说的TTS大模子:河南话、上海话、粤语说得溜 - 性爱姿势
性爱姿势
栏目分类
热点资讯
品色堂论坛

你的位置:性爱姿势 > 品色堂论坛 > 男同 打屁股 首个辅助浩瀚话和方言混说的TTS大模子:河南话、上海话、粤语说得溜

男同 打屁股 首个辅助浩瀚话和方言混说的TTS大模子:河南话、上海话、粤语说得溜

发布日期:2024-11-09 13:57    点击次数:73

AIxiv专栏是机器之心发布学术、工夫内容的栏目。往时数年男同 打屁股,机器之心AIxiv专栏收受报说念了2000多篇内容,掩饰全球各大高校与企业的顶级实验室,有用促进了学术调换与传播。若是您有优秀的责任念念要共享,迎接投稿或者干系报说念。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

自 2024 年 GPT-4o 出现以来,业内各公司纷纭参预巨大的资源进行 TTS 大模子的研发。近几个月内,华文语音合成大模子如星罗棋布般披露,如 chattts、seedtts、cosyvoice 等。

固然面前语音合成大模子在华文浩瀚话上的恶果已与真东说念主着实无异,但濒临中国纷纭复杂的方言,TTS 大模子却鲜有涉猎,本质一个合伙的华文各方言语音合成大模子是一项极具挑战的任务。

行业痛点与工夫瓶颈

面前,语音合成大模子工夫在浩瀚话领域一经获得了显耀进展,但在方言领域的发展却极端逐渐。中国领罕有十种主要方言,每一种方言都有私有的语音特征和语法结构,这使得本质一个掩饰各样方言的 TTS 大模子变得畸形复杂。

现存的 TTS 大模子大多专注于浩瀚话,无法中意各样化的语音合成需求。此外,方言语料库的稀缺以及高质地标注数据的匮乏,也进一步加多了工夫难度。

巨东说念主网络 AI Lab 的工夫改进与打破

为了管制上述曲折,巨东说念主网络 AI Lab 团队中的算法众人息兵话学家共同奋力,基于中国方言体系,构建了涵盖 20 种方言、卓绝 20 万小时的浩瀚话和方言数据集。通过这一广阔的数据集,咱们本质出了第一个辅助多种浩瀚话方言混说的 TTS 大模子 ——Bailing-TTS。Bailing-TTS 不仅简略生成高质地的浩瀚话语音,还简略生成包括河南话、上海话、粤语等在内的多种方言语音。

ArXiv: https://arxiv.org/pdf/2408.00284

Homepage: https://giantailab.github.io/bailingtts_tech_report/index.html

论文标题:Bailing-TTS: Chinese Dialectal Speech Synthesis Towards Human-like Spontaneous Representation

以下是Bailing-TTS 河南话的合成恶果:

文本1:

汴水东流无穷春,隋家宫阙已成尘。行东说念主莫上长堤望,风起杨花愁杀东说念主。

生谚语音1:

文本2:

我嘞爱重也可多了,悦耳豫剧,那腔调儿,听着得劲儿嘞很。没事嘞时刻我也好出去散步散步,逛逛俺河南嘞大好荒疏。我还好捣饱读点儿吃嘞,像那烩面呀、胡辣汤呀,你别说,我我方作念嘞也可像回事儿。

生谚语音2:男同 打屁股

再给群众听一下浩瀚话零样本克隆的恶果:

Prompt 1:后生-男

生成1:这个问题,嗯嘶,从另一个角度看,是不是对咱们来说亦然一件善事?

Prompt 2:少年-男

生成2:喽,未来又是周末啦,一皆去看个电影吧。

Prompt 3:老年-女

生成3:提及咱们以前的事,啊,那确切三天三夜都说不完。

Prompt 4:小童-女

婷儿 勾引

生成4:哦,你说的是这个啊,这是我去海边的时刻捡到的。

咱们遴荐了多项改进工夫来罢了这一商量:

1. 合伙的方言 Token 法子:咱们将各方言的 token 法子合伙,并使浩瀚话与各方言的 token 有部分重迭,以应用浩瀚话提供基础发音能力。这使得咱们简略在有限的数据条款下,罢了高质地的方言语音合成。

2. 致密化 Token 对皆工夫:咱们提倡了基于大界限多模态预本质的致密化 token-wise 对皆工夫。

3. 档次羼杂众人结构:咱们想象了一种档次羼杂众人体绑缚构,用于学习多个汉语方言的合伙示意和每种方言的特定示意。

4. 档次强化学习增强战略:咱们提倡了档次化的强化学习战略,通过基础本质战略和高等本质战略相皆集的设施,进一步增强 TTS 模子的方言抒发能力。

罢了细节

1. 基于大界限多模态预本质的致密化 Token 对皆

为了罢了文本和语音 token 的致密化对皆,咱们提倡了一个多阶段、多模态的预本质学习框架。

第一阶段,咱们使用无监督的采样战略,在大界限数据集上进行幼稚本质。第二阶段,咱们袭取致密化采样战略,在高质地的方言数据集上进行细粒度本质。这一设施简略有用地捕捉文本和语音之间的细粒度关联关系,促进两种模态的对皆。

2. 基于档次羼杂众人 Transformer 集聚首构

为了本质适用于多种汉语方言的合伙 TTS 模子,咱们想象了一种档次羼杂众人集聚首构和多阶段多方言 token 学习战略。

最初,咱们提倡了一种寥落想象的羼杂众人体绑缚构,用于学习多个汉语方言的合伙示意和每种方言的特定示意。然后,咱们通过基于交叉注重力的交融机制,将方言 token 注入 TTS 模子的不同档次,以普及模子的多方言抒发能力。

3. 档次强化学习增强战略

咱们提倡了一种档次化的强化学习战略,通过袭取基础战略本质和高等本质战略相皆集的设施,进一步增强 TTS 模子的方言抒发能力。基础本质战略辅助探索优质的方言语音抒发,高等本质战略在此基础上强化不同方言的语音脾气,从而罢了多种方言的高质地语音合成。

实验适度

Bailing-TTS 在浩瀚话、多种方言的鲁棒性、生成质地、当然度上已达到与真东说念主较为接近的水平。

在骨子的应用场景测评中,Baling-TTS 均获得了可以的恶果。

工夫的落地应用与将来远景

现在,这项多方言 TTS 大模子一经在多个骨子场景中得到应用。举例,在游戏中为 NPC 配音,视频创作中进行方言配音等。通过这一工夫,游戏和视频内容简略愈加迫临地域文化,普及用户的千里浸感和体验感。

将来,跟着端到端语音交互大模子的进一步发展,这项工夫将在方言文化保护、游戏 AI NPC 方言交互等领域展现更大的后劲。在方言保护场景中,通过辅助多种方言的语音交互,可以让下一代方便地学习、传承、督察汉语方言,让汉语方言文化源源而来。在游戏场景中,会说方言的可语音交互的智能 NPC,将进一步普及游戏内容的进展力。

巨东说念主网络 AI Lab 将持续悉力于鼓吹这一工夫的改进和应用,为用户带来更智能、更方便的语音交互体验。

团队先容

巨东说念主 AI 实验室设备于 2022 年,是从属于巨东说念主网络的东说念主工智能工夫应用与研究机构。悉力于面向 AIGC 内容(图像 / 文本 / 音视频 / 3D 模子等)生成领域,罢了内容出产创作全面智能化男同 打屁股,鼓吹游戏玩法改进。现在,实验室已在巨东说念主里面构建起全链路 AI 工业化出产管线,同期完成游戏行业内首个垂类大模子(GiantGPT)备案,率先参预交易化应用。



友情链接:

Powered by 性爱姿势 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024

创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
JzEngine Create File False