百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

Dify工作流实现语音转文字-纯本地模型

wptr33 2025-06-15 19:46 16 浏览

语音转文字(Speech-to-Text, STT)技术的应用越来越广泛,从会议记录到视频字幕生成,STT 技术为我们的生活和工作带来了极大的便利。今天,我将介绍如何使用 Dify 实现语音转文字,具体流程包括上传音频文件、通过 Flask 接口调用 FunASR 模型进行语音识别,最终将生成的文字返回到 Dify 端。全部过程都是本地运行,不依赖其他第三方工具。

视频演示:

演示

1.什么是FunASR?

FunASR 是一个高性能的语音识别工具包,基于 PyTorch 和 Kaldi 构建,支持多种语言和方言,具有高准确率和低延迟的特点。

2.下载FunASR模型

pip install modelscope
modelscope download --model iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch --local_dir D:\downloads\AIModels\FunASR

推荐使用Paraformer语音识别-中文-通用-16k-离线-large-pytorch这个,也就是我们下载的
iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch ,下载好后如下图:

3.下载源码安装依赖

git clone https://github.com/modelscope/FunASR.git

cd源码根目录,然后安装依赖,注意python要>=3.8

pip install -e ./
pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu118

4.然后测试一下,自己拿手机随便录个音

我照着红框里的文本读了几句,写一个简单的测试代码

from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess

model_dir = "D:/downlaods/AIModels/FunASR"

model = AutoModel(
    model=model_dir,
    vad_model="fsmn-vad",
    vad_kwargs={"max_single_segment_time": 30000},
    device="cuda:0",
)

# en
res = model.generate(
    input=f"D:/workspaces/py_work_space/diyf-api/1.mp3",
    cache={},
    language="auto",  # "zn", "en", "yue", "ja", "ko", "nospeech"
    use_itn=True,
    batch_size_s=60,
    merge_vad=True,  #
    merge_length_s=15,
)
text = rich_transcription_postprocess(res[0]["text"])
print(text)

注意:model_dir指向模型保存的目录,而不是某个具体的文件,这个目录下有很多文件,经过测试mp3和wav格式都支持。运行一下看结果还不错。

5.用flask写一个http服务

因为我们要集成到dify中,所以需要一个后台的http服务。接收从dify上传过来的音频文件,然后转成文字后再返回给dify。代码如下:

from flask import Flask, request, jsonify
from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess
import os

app = Flask(__name__)

model_dir = "D:/downlaods/AIModels/FunASR"

model = AutoModel(
    model=model_dir,
    vad_model="fsmn-vad",
    vad_kwargs={"max_single_segment_time": 30000},
    device="cuda:0",
)

@app.route('/transcribe', methods=['POST'])
def transcribe():
    # 获取上传的音频文件
    if 'audio' not in request.files:
        return jsonify({'error': 'No audio file provided'}), 400

    audio_file = request.files['audio']
    if audio_file.filename == '':
        return jsonify({'error': 'No selected file'}), 400

    # 保存上传的音频文件
    temp_audio_path = "temp_audio.mp3"
    audio_file.save(temp_audio_path)

    # 调用 FunASR 模型进行语音识别
    res = model.generate(
        input=temp_audio_path,
        cache={},
        language="auto",  # "zn", "en", "yue", "ja", "ko", "nospeech"
        use_itn=True,
        batch_size_s=60,
        merge_vad=True,
        merge_length_s=15,
    )

    # 后处理识别结果
    text = rich_transcription_postprocess(res[0]["text"])

    # 删除临时文件
    os.remove(temp_audio_path)

    # 返回结果
    return jsonify({'text': text})

if __name__ == '__main__':
    app.run(debug=True)

写好以后启动这个程序,然后用接口工具测试一下,正常返回。

6.Dify集成

在Dify里创建一个工作流,起名TTS

开始节点添加一个文件上传框

然后增加一个http请求节点,按照接口工具里的配置一下:注意键名是 audio,和后台接口参数一致,值就是开始节点上传框,我这里都是叫 audio,并且如果dify是用docker部署的,url要用host.docker.internal来访问外部的宿主机。

最后添加一个结束节点,输出变量就是http请求节点的body,即后台的相应内容:

整个工作流如下,发布运行测试一下:

以上就用Dify通过本地STT模型集成了语音转文字的操作。想要完整代码和工作流的小伙伴关注私信获取。

相关推荐

redis的八种使用场景

前言:redis是我们工作开发中,经常要打交道的,下面对redis的使用场景做总结介绍也是对redis举报的功能做梳理。缓存Redis最常见的用途是作为缓存,用于加速应用程序的响应速度。...

基于Redis的3种分布式ID生成策略

在分布式系统设计中,全局唯一ID是一个基础而关键的组件。随着业务规模扩大和系统架构向微服务演进,传统的单机自增ID已无法满足需求。高并发、高可用的分布式ID生成方案成为构建可靠分布式系统的必要条件。R...

基于OpenWrt系统路由器的模式切换与网页设计

摘要:目前商用WiFi路由器已应用到多个领域,商家通过给用户提供一个稳定免费WiFi热点达到吸引客户、提升服务的目标。传统路由器自带的Luci界面提供了工厂模式的Web界面,用户可通过该界面配置路...

这篇文章教你看明白 nginx-ingress 控制器

主机nginx一般nginx做主机反向代理(网关)有以下配置...

如何用redis实现注册中心

一句话总结使用Redis实现注册中心:服务注册...

爱可可老师24小时热门分享(2020.5.10)

No1.看自己以前写的代码是种什么体验?No2.DooM-chip!国外网友SylvainLefebvre自制的无CPU、无操作码、无指令计数器...No3.我认为CS学位可以更好,如...

Apportable:拯救程序员,IOS一秒变安卓

摘要:还在为了跨平台使用cocos2d-x吗,拯救objc程序员的奇葩来了,ApportableSDK:FreeAndroidsupportforcocos2d-iPhone。App...

JAVA实现超买超卖方案汇总,那个最适合你,一篇文章彻底讲透

以下是几种Java实现超买超卖问题的核心解决方案及代码示例,针对高并发场景下的库存扣减问题:方案一:Redis原子操作+Lua脚本(推荐)//使用Redis+Lua保证原子性publicbo...

3月26日更新 快速施法自动施法可独立设置

2016年3月26日DOTA2有一个79.6MB的更新主要是针对自动施法和快速施法的调整本来内容不多不少朋友都有自动施法和快速施法的困扰英文更新日志一些视觉BUG修复就不翻译了主要翻译自动施...

Redis 是如何提供服务的

在刚刚接触Redis的时候,最想要知道的是一个’setnameJhon’命令到达Redis服务器的时候,它是如何返回’OK’的?里面命令处理的流程如何,具体细节怎么样?你一定有问过自己...

lua _G、_VERSION使用

到这里我们已经把lua基础库中的函数介绍完了,除了函数外基础库中还有两个常量,一个是_G,另一个是_VERSION。_G是基础库本身,指向自己,这个变量很有意思,可以无限引用自己,最后得到的还是自己,...

China's top diplomat to chair third China-Pacific Island countries foreign ministers' meeting

BEIJING,May21(Xinhua)--ChineseForeignMinisterWangYi,alsoamemberofthePoliticalBureau...

移动工作交流工具Lua推出Insights数据分析产品

Lua是一个适用于各种职业人士的移动交流平台,它在今天推出了一项叫做Insights的全新功能。Insights是一个数据平台,客户可以在上面实时看到员工之间的交流情况,并分析这些情况对公司发展的影响...

Redis 7新武器:用Redis Stack实现向量搜索的极限压测

当传统关系型数据库还在为向量相似度搜索的性能挣扎时,Redis7的RedisStack...

Nginx/OpenResty详解,Nginx Lua编程,重定向与内部子请求

重定向与内部子请求Nginx的rewrite指令不仅可以在Nginx内部的server、location之间进行跳转,还可以进行外部链接的重定向。通过ngx_lua模块的Lua函数除了能实现Nginx...