核心技术
当前位置: 优浪科技 > 核心技术
  • 优浪语音识别

    语音识别

    Automatic Speech Recognition

    语音识别(Automatic Speech Recognition 简称ASR)通过识别语音语种和任意的连续语音,将声音信号转化为相应说话内容的语种文字。支持中、英、日、俄、朝、维、粤、藏、哈、沪语、闽南语等多种语言的语音识别。

    • 抗噪性好:从人的听觉感知及发音机理等现有基础研究成果出发,分析提取具备抗噪性、鉴别性、互补性的特征参数。
    • 识别准确率高:采用PLP/CMN/HLDA/VTLN/高斯化等特征提取和处理技术;采用基于深度神经网络DNN的声学建模技术,适应用户自然口语发音特点。
    • 识别速度快:采用基于Transformer/CTC Hybrid建模技术,多任务学习,加快训练流程,实现鲁棒性更好的识别效果。
    • 采用模型自学习技术,适应多种地区的用户口音。
    • 通过系统中间层为上层应用提供服务,同时将自己的服务能力作为接口提供给第三方平台。
    • 热词模型:支持用户上传领域或者是自定义热词,引擎自适应选择用户热词结果。
    • 开放的API接口:通过开放的API接口提供给第三方平台灵活使用。
  • 语音增强

    语音增强

    Speech Enhancement

    语音增强(speech enhancement简称SE),通过应用信号处理方法以及深度学习策略,尽可能的从带噪语音中恢复纯净的语音信号,从而提高带噪语音信号的质量和可懂度。

    • 高适性,适用于多种复杂场景,低信噪比音频。
    • 高质量,结合深度学习策略,通过对目标频谱的复数域CRM进行学习优化,达到高质量语音增强的目的。
    • 高实时,通过优化网络结构,充分利用音频谐波长期的相关性,实现了帧级的语音增强性能。
    • 可定制,对特定类型的带噪音频进行优化增强。
  • 声纹识别

    声纹识别

    Voiceprint Recognition

    声纹识别(Voiceprint Recognition,简称VPR):支持说话人确认、辨识,说话人分离。

    • 采用国际领先的基于TDNN的声纹识别技术。
    • 引用PLDA在后端进行信道补偿,大大提升识别性能。
    • 声纹识别与用户所说的文本和语言无关。
    • 声纹识别速度快,能确保实时识别。 模型存储空间小,
    • 每个人的声纹模型存储空间小于100KB。
    • 参数调整方便,可按不同的应用需求调整操作点阈值。高安全性,不必担心他人的录音顶替使用。
  • 语音合成

    语音合成

    Text To Speech

    语音合成(Text To Speech 简称TTS),将文本信息转化成语音信息,让机器像人类一样能说会道,支持多语种、多业务领域语音合成。

    • 高度智能的文本处理能力。
    • 高自然度的节奏和韵律预测。
    • 灵活的播放调节功能和多种特殊效果,可自由调节语速、音调。
    • 高品质的语音合成效果。
    • 灵活的系统架构,有良好的扩展性。
  • 机器翻译

    机器翻译

    Machine Translation

    机器翻译((Machine Translation 简称MT),利用电子计算机等装置,按照一定的程序将一种语言文本(源语言)转换成另一种语言文本(目标语言)。

    • 应用基于Transformer的神经网络技术,搜集大规模语料多次训练,翻译品质较好。
    • 支持在线学习优化,主动学习用户修改纠正后的结果。
    • 支持英日韩等多达200+个语言与中文互译,覆盖全球主流语种,覆盖“一带一路”及联合国所有官方语言。
    • 支持API方式接入,提供文本翻译、标签处理、多格式翻译等7项开发接口。
    • 提供多个翻译插件,可应用与WPS、Office等软件中,赋予软件更强大的机器翻译能力。
  • 计算机视觉

    计算机视觉

    Computer Vision

    计算机视觉(Computer Vision)用计算机代替人眼对目标进行识别、跟踪和测量,使计算机能像人那样通过视觉观察和理解世界。

    • 人脸识别关键技术:复杂环境下高动态活体人脸检测算法,基于人脸关键点定位实现人脸区域的标准化预处理,减少了复杂环境因素对人脸特征提取的干扰,有效融合局部细节特征与全局整体特征,最后对活体特征实现准确分类。
    • 自然监控视频中的对象、行为识别:以视觉AI分析场景化模型为基础,利用深度学习等方法,实现目标检测与跟踪、目标识别、对象行为动作分析,并针对应用场景综合优化,实现目标识别及异常行为检测。