首页@恒行3注册-平台登录首页
  • 恒行3注册
  • 恒行3登录
  • 恒行3招商
  • 文章正文
    数据上新不只朗读!数据堂新增20+国家口音英语自然对话集!
    作者:admin 发布于:2024-01-28 09:24 文字:【 】【 】【
    摘要:随着科技的进步,语音识别技术已经渗透到生活的方方面面,然而,面对带口音的英语,通用的英文语音识别模型的鲁棒性及准确率都会有明显下降。 为了让模型能够更准确理解全球不

      随着科技的进步,语音识别技术已经渗透到生活的方方面面,然而,面对带口音的英语,通用的英文语音识别模型的鲁棒性及准确率都会有明显下降。

      为了让模型能够更准确理解全球不同国家英语发音人想表达的内容,提升英语语音识别准确率,使用高质量的数据集成为解决问题的有效办法之一。

      当前市场上存在的口音英语数据集,无论是商用还是开源,通常通过录音人朗读脚本或由网络收集公开音视频资源加工制作等方式获取。从语音角度来看,这样的获取方式容易出现语音自然度欠缺、副语言现象不够丰富等情况。

      另外,从领域来看,语料内容主要集中在各种媒体平台的演讲和新闻等,不太符合日常生活的表达习惯与内容。

      此外,很多英语数据集虽然采用专业设备录制,也覆盖了多地口音。但录音人在进行语音朗读时,存在状态偏正式,自然度偏低等问题。

      基于以上情况,数据堂在构建英语语音数据集时,充分考虑口音英语模型识别能力进一步提升的需求。相继推出涵盖30+国家、20000小时英语语音数据集,旨在帮助提升英语语音识别模型的表现力。

      数据堂自有的口音英语数据集,由37684位采集者共同录制。为保证单人时长分布更合理,我们的语言专家特别设计了每人30分钟左右且内容丰富的语料,录制环境相对安静,发音习惯契合当地的英语口音表达。

      录音文本内容均由语言专家参与设计,覆盖了所有通用场景,包括车载、家居、交互、数字等多个类别,内容非常丰富。这有效平衡了口音和内容的覆盖范围。

      作为语音识别领域的经典数据集,数据堂口音英语数据集已被全球知名AI企业与科研机构广泛使用,句准确率高达98%以上,数据质量得到验证。

      近年来,面对语音识别技术突飞猛进的发展,基于现有的多国多地区口音英语数据研究经验,数据堂发布了业内首个多领域自然对话口音英语数据集。

      这套数据集与市场上已有的给出既定录音脚本的模拟录制方式不同,让录音人选择更熟悉的话题进行自由对话,从而更大程度上保证了语音的内容更加贴合实际应用场景。话题领域包含日常、线上会议、多人会议、职场、游戏、购物、金融等全领域内容。

      此外,发音人口音覆盖新加坡、澳大利亚、日本、韩国、印度等20多个国家和地区,标注文本转写内容、说线%以上。

      高质量的口音英语数据集可以助力客户快速提升口音英语语音识别模型能力。数据堂致力于为客户打造更高质量、更高准确率的数据,以应对各种挑战,期望携手共同开创语音技术的崭新未来。

    相关推荐
  • 周末荐书 为什么亚洲首富总是出现在印度?
  • 数据上新不只朗读!数据堂新增20+国家口音英语自然对话集!
  • 实习汇总 深创投成为资本腾讯百度兴业证券欧莱雅联合利华等
  • 刊登 热线_重庆
  • 网络平台上的道德失落--也谈明星电话号码外泄
  • “携号转网”英文怎么说
  • 中国经验助力全球肺癌诊疗发展《非小细胞肺癌MET临床检测中国专家共识》英文
  • 承包砖厂引发纠纷 承包者杀死经营者
  • 乌鲁木齐问路也可拨打114 查询方式快捷方便
  • 环评单位
  • 脚注信息
    Copyright © 2027 恒行3注册 TXT地图 HTML地图 XML地图