【程序员的工具】怎么提取mp3文件中的音频为文字

whisper的使用

前言

最近手头有几个音频文件,想要提取出来,但是网上一搜信息过于繁杂,这时我突然想起来github上我star了whisper这个项目,当时只是看了一下介绍,觉得很有意思,再加上是openai出品,就star了,同时还发现一个whisper.cpp的项目,当然都没有怎么仔细看,只是知道这个项目可以提取mp3文件中的音频为文字。欸!今天就用上了~

安装whisper

  • 首先安装ffmpeg,并配置好环境变量

  • 这里我们使用uv来安装whisper,假设你已经熟悉uv的用法了

    uv tool install openai-whisper
    

使用whisper

  • 打开命令行,直接输入whisper xxx.mp3即可,xxx.mp3是你要提取音频的mp3文件名,程序会自动提取出音频中的文字并打印出来。
  • 这里我们什么都不管,直接就敲这两个字符,直接出结果(第一次会先下载模型文件),除了控制台的输出,还会生成一个xxx.txt文件,里面就是提取出的文字。
  • 详细用法可以看官方文档

总结

不得不感叹程序员就是好呀,有这么多的开源工具可以使用,敲一点点命令就能出结果,simple is better than complex!

网站总访客数:Loading
网站总访问量:Loading
使用 Hugo 构建
主题 StackJimmy 设计