精准转写:利用 Whisper 处理音视频转文字-不完全指南

背景 前阵子女朋友去读研,授课是全英的,加之又有很多专业名词,有时就会出现理解能力跟不上讲课速度的情况。 因此借助课堂回放/录音复习也变成了一项每周必做的工作,但是完全回看一个三小时长的课程显然是不现实的,所以,音视频转文字就成了必选项。 方案选择 商用 ASR 服务大多难以实现高精度转写 我是飞书妙记的会员,所以遇到了这个需求,我马上想到先用妙记试试。 然而,尝试转录的结果表明,妙记在专业课程上的转录准确度相当差,无法满足通过文字转录来提高复习速度的需求。 妙记转录结果:词汇未转录、转录错误问题频发 其他商用服务(如通义听悟、讯飞听见、Notta 等)的转录效果和飞书妙记差不太多,大体原因有三点: 手机远距离收音比较差,音频文件质量不高。 一般的商业自动语音识别(ASR-Automatic Speech Recognition) 服务主要面对会议等日常场景。但若音频内容含有过多的专业词汇,此类 ASR 服务则有点力不从心了。 商业 ASR 服务需在速度、准确性和成本之间取得平衡,高准确度通常需要以成本变高、速度变慢作为代价。 基于问题 2 和 3 ,我放弃了继续寻找其他商业 ASR 服务的想法。 Whisper 的惊艳效果 因为平时业务里我自己基于 OpenAI 发布的 Whisper API 写了不少工作流,所以我又试了试 Whisper(Large-v2)的转录效果。——非常惊艳,甚至连符号的写法(theta_i^t)它都转写了出来。 Whipser LargeV2 转录结果:精度高到甚至照顾到了符号写法 这里简要介绍一下 Whisper,Whisper 是 OpenAI (没错,还是 chatGPT 背后的公司)在 2022 年 9 月开源的音频转文本的模型,它的转写精确度非常高。 但想使用 Whisper 进行转写也并非易事。它有两种实现方式:云端 Or 本地。 云端转写的优势在于不会受到本地机器性能的限制,且速度相对较快。但它存在两个问题: 项目处理流程复杂:OpenAI 的 Whisper API 限制单次请求的音频大小为 25Mb,而一节 3h 的音频通常都会有大几十 MB。这就需要对音频先做分段处理,再请求结果,最后合并结果。如果是 mp4 文件则还需要从中抽取音频文件,这个过程里没少踩坑。 成本问题:OpenAI 的 Whisper 模型 1min 收费 0.006 美元,1h 的音频按照 7.3 的汇率需要收费 2.7 元。坦白讲,Whisper 的 API 价格非常便宜了,几乎只是 Google Speech2Text API 的四分之一。但是,如果我们假设有 5 门课程,每堂课长 3小时,每周有一次课,那么每个月的转写成本 = 5 x 3 x 4 x 2.7 = 162 元,这个价格还是有点肉疼。 本地转写的话倒是没有上述两个问题,但本地转写的麻烦之处在于: ...

October 19, 2023 · 4 min · 立行

备份手机微信聊天记录到电脑,解决提示问题"当前网络环境复杂,请尝试使用其他网络"

测试设备 Windows 微信 3.7.6.44 Android 微信 8.0.34 红米 K50,MIUI 13 背景 我有一个持续了三年的习惯——每周备份当周的微信聊天记录。但微信的备份功能做得实在是很烂,经常遇到网络问题: 当前网络状况复杂,请尝试使用其他网络 提示手机和电脑的网络不一致( 明明都在同一个 WIFI 下,备份界面显示的网络名字也一致) … 在互联网上搜了一下,解决方案也无非是: 重启微信/手机 给予地理位置权限(Android)/给予 Local Network 权限(iOS) 但实操下来不能百分百解决问题。 真正的解决方案 按照下面的步骤来操作,我这里从未失败过。 前提 手机和电脑在同一个 WIFI 下面(2.4G 和 5G 最好区分开) Android 给予了微信定位权限(因为定位权限里包含部分 WIFI 的信息),iOS 给予了微信 Local Network Access 权限 Android 的定位开关为开启状态。 遇到网络问题,提示无法备份 Kill 掉微信的进程,要到应用信息页面『结束进程』,在 MIUI 上是『长按图标』=>『应用信息』=>『结束运行』 微信 PC 版本点击『迁移与备份』=>『迁移』(没错,先使用迁移,而不是备份)。 迁移一个体积很小的聊天记录,让手机和电脑之间完成通信过程。 等待迁移成功后,点击『备份』,通常这时就不会有网络问题了。 如果还是无法解决?建议重新检查上面的步骤。

April 9, 2023 · 1 min · 立行

写在迁移之前

大学时我曾经有一个搭在阿里云上的 WordPress 站点存放着历史的文章,一年一百多的价格也还可以接受。但毕业之后,一方面折腾的心思变少了,一年也更新不了几篇文章;另一方面,续费的价格直接升到了 1300 左右,想想这个投入产出比,遂将老站关停。 但编程和写作是我们这个时代普通人最容易接触的杠杆,所以——还是应该尝试努力输出。 作为一个懒人,让我能坚持做一件事的前置条件是我可以把这件事的门槛放到很低。Hexo 虽好,但对我一个偶尔写代码的人而言还是有点复杂了,挫伤了输出的积极性。 选择 Gridea 就是因为它足够简单,有个客户端可以直接开始写。不过也不是没有顾虑,看作者上一次更新还是在 2020.10,比较担心后续没有人维护。 但,Anyway,先写了再说。 这个博客还是打算放一些和工作无关的折腾的内容,之前历史的文章也会逐步迁移过来。 好风凭借力,送你上青云。

May 4, 2022 · 1 min · 立行

B 站?Why&How?

B 站?Why&How? 大概是在 2019 年下半年,我的信息源里面开始频繁出现 B 站的相关消息。 B 站 UP 主“独立菌”给曹大引了数千粉丝 半佛仙人、巫师经济学在 B 站的迅速崛起 视频战争 2019 身边朋友有的一天看几个小时 B 站视频 虽然之前早就注册过账号,但一直把 B 站当成一个二次元社区,很少打开。后来看了一下才发现 B 站的内容池原来已经这么大了,除了动画还有科技、生活、时尚、娱乐、广告…我在 B 站学知识真的不是一句虚言。 B站的主页分区 2019 年 12 月尝试在 B 站占坑,希望 2020 能做到 1000 粉丝(尽管目前进度 1%)。现在感觉还是有些困难的,因为目前在做的内容和 B 站的调性不是很搭,数据在西瓜反而好看很多。不过时日还短,坚持做一年再看看数据如何。 写这篇文章主要想分享一下我对视频内容的一点思考和理解,未必正确,只是记录。 本文分为两个部分,Why & How 为什么要做 B 站? 1 视频时代已然来临,B 站的门槛相对于抖音和快手较低 博客-微博-抖音/快手,媒体的篇幅从长到短,媒体的形式从文字到图文再到视频。背后是随着基础设施的逐渐完善和内容发布门槛的逐渐降低,内容生产和吸收慢慢从社会金字塔的顶层过渡到整个金字塔。 视频相对于图文更易于理解和吸收,自然受众更广。想想点开一篇文章和一个视频,二者的心理压力完全不在一个水平之上。 同时,网络提速降费+短视频 App 已经把用户随时随地看视频的习惯培养起来了,可以说视频时代已然来临。 有的人会说,短视频只要个手机就能拍,长视频可能还需要电脑进行后期处理,分明是短视频的门槛更低才是。这话不错,拍摄门槛的确是短视频较低,但我想说的是做起一个账号的门槛在 B 站是要低于抖音和快手的。 短视频 15 s 的限制使得每一秒都需要进行精心的设计,几秒内不能吸引用户视频直接就会被切。加之现在早已不是初期草莽年代,随随便便发几个视频就会有大量粉丝。目前在短视频领域能做出来的背后基本都有专业的团队,选材、拍摄、后期、推广都需要花费较多的精力,个人创作者如果不是内容有远胜于人的优势,很难在抖音快手起量。 而 B 站尽管视频制作上需要一定的门槛,但这样的门槛也过滤掉了一部分创作者。同时 B 站目前创作者的商业化能力是不如抖音快手的,除了有限的几个区可以靠接广告过活,很多内容是空有播放量但是创作者没赚到钱(激励计划也只是激励),这也就导致了 B 站的竞争没有抖音快手激烈。 ...

January 30, 2020 · 2 min · 立行