精准转写:利用 Whisper 处理音视频转文字-不完全指南

背景 前阵子女朋友去读研,授课是全英的,加之又有很多专业名词,有时就会出现理解能力跟不上讲课速度的情况。 因此借助课堂回放/录音复习也变成了一项每周必做的工作,但是完全回看一个三小时长的课程显然是不现实的,所以,音视频转文字就成了必选项。 方案选择 商用 ASR 服务大多难以实现高精度转写 我是飞书妙记的会员,所以遇到了这个需求,我马上想到先用妙记试试。 然而,尝试转录的结果表明,妙记在专业课程上的转录准确度相当差,无法满足通过文字转录来提高复习速度的需求。 妙记转录结果:词汇未转录、转录错误问题频发 其他商用服务(如通义听悟、讯飞听见、Notta 等)的转录效果和飞书妙记差不太多,大体原因有三点: 手机远距离收音比较差,音频文件质量不高。 一般的商业自动语音识别(ASR-Automatic Speech Recognition) 服务主要面对会议等日常场景。但若音频内容含有过多的专业词汇,此类 ASR 服务则有点力不从心了。 商业 ASR 服务需在速度、准确性和成本之间取得平衡,高准确度通常需要以成本变高、速度变慢作为代价。 基于问题 2 和 3 ,我放弃了继续寻找其他商业 ASR 服务的想法。 Whisper 的惊艳效果 因为平时业务里我自己基于 OpenAI 发布的 Whisper API 写了不少工作流,所以我又试了试 Whisper(Large-v2)的转录效果。——非常惊艳,甚至连符号的写法(theta_i^t)它都转写了出来。 Whipser LargeV2 转录结果:精度高到甚至照顾到了符号写法 这里简要介绍一下 Whisper,Whisper 是 OpenAI (没错,还是 chatGPT 背后的公司)在 2022 年 9 月开源的音频转文本的模型,它的转写精确度非常高。 但想使用 Whisper 进行转写也并非易事。它有两种实现方式:云端 Or 本地。 云端转写的优势在于不会受到本地机器性能的限制,且速度相对较快。但它存在两个问题: 项目处理流程复杂:OpenAI 的 Whisper API 限制单次请求的音频大小为 25Mb,而一节 3h 的音频通常都会有大几十 MB。这就需要对音频先做分段处理,再请求结果,最后合并结果。如果是 mp4 文件则还需要从中抽取音频文件,这个过程里没少踩坑。 成本问题:OpenAI 的 Whisper 模型 1min 收费 0.006 美元,1h 的音频按照 7.3 的汇率需要收费 2.7 元。坦白讲,Whisper 的 API 价格非常便宜了,几乎只是 Google Speech2Text API 的四分之一。但是,如果我们假设有 5 门课程,每堂课长 3小时,每周有一次课,那么每个月的转写成本 = 5 x 3 x 4 x 2.7 = 162 元,这个价格还是有点肉疼。 本地转写的话倒是没有上述两个问题,但本地转写的麻烦之处在于: ...

October 19, 2023 · 4 min · 立行

怎样给 Electron 应用抓包

今天测试 Memo 的翻译服务,发现经常失败,于是想抓包看看失败原因。 很自然的打开了电脑上的 Fidder,但出乎意料的是完全抓不到 Memo 的任何 Http 请求…(已开启 https 抓包,其他软件测试正常) 搜了一下,发现可能是由于 Electron 的缘故。 于是又参考 抓包经验总结(一) - 知乎 尝试使用 wireshark 来抓包,但无奈 wireshark 里面信息太多了,我光通过 ip 和协议过滤还是有大量请求…遂放弃。 后来搜到了 Electron应用抓包_electron 程序 抓包-CSDN博客 这篇文章。 code.exe --args --proxy-server=localhost:8888 --ignore-certificate-errors 我拿 Fidder 测试了一下,发现可以抓取到 Memo 检测更新的请求,但是依旧抓取不到翻译的请求。。 接着按照 Electron抓包体验-CSDN博客 的思路,在 Chrome 里调试 Electron 应用。 Memo.exe -remote-debugging-port=9222 然后用 Chrome 打开 chrome://inspect/#devices Console 里有输出,network 里没有 尴尬的是,能看到 Console 里输出了翻译的记录,但在 Network 里没有发现任何 http 请求。。 最后用英文搜了一下,最终找到了解决方案。 Download HTTP Toolkit for Windows HTTP Toolkit 抓取 Electron 应用 ...

October 17, 2023 · 1 min · 立行

备份手机微信聊天记录到电脑,解决提示问题"当前网络环境复杂,请尝试使用其他网络"

测试设备 Windows 微信 3.7.6.44 Android 微信 8.0.34 红米 K50,MIUI 13 背景 我有一个持续了三年的习惯——每周备份当周的微信聊天记录。但微信的备份功能做得实在是很烂,经常遇到网络问题: 当前网络状况复杂,请尝试使用其他网络 提示手机和电脑的网络不一致( 明明都在同一个 WIFI 下,备份界面显示的网络名字也一致) … 在互联网上搜了一下,解决方案也无非是: 重启微信/手机 给予地理位置权限(Android)/给予 Local Network 权限(iOS) 但实操下来不能百分百解决问题。 真正的解决方案 按照下面的步骤来操作,我这里从未失败过。 前提 手机和电脑在同一个 WIFI 下面(2.4G 和 5G 最好区分开) Android 给予了微信定位权限(因为定位权限里包含部分 WIFI 的信息),iOS 给予了微信 Local Network Access 权限 Android 的定位开关为开启状态。 遇到网络问题,提示无法备份 Kill 掉微信的进程,要到应用信息页面『结束进程』,在 MIUI 上是『长按图标』=>『应用信息』=>『结束运行』 微信 PC 版本点击『迁移与备份』=>『迁移』(没错,先使用迁移,而不是备份)。 迁移一个体积很小的聊天记录,让手机和电脑之间完成通信过程。 等待迁移成功后,点击『备份』,通常这时就不会有网络问题了。 如果还是无法解决?建议重新检查上面的步骤。

April 9, 2023 · 1 min · 立行

怎么查看并保存被微信屏蔽的文章?

微信最近发布了 2018 数据报告。报告指出,截至2018年9月,微信月活用户达到 10.82 亿。 尽管微信公众号近年来的打开率不断下降,但不可否认的是,微信庞大用户基数使得绝大多数内容生产者都不能舍弃这块战场。 根据《2017 年微信经济数据报告》和《2017 微信用户研究和商机洞察》数据,截至 2017 年底微信公众号已超过 1000 万个,其中活跃账号 350 万,较 2016 年增长 14%,月活跃粉丝数为 7.97 亿。 自然,微信的生态里面有非常多的优质内容生产者,他们对外输出了许多富有价值的内容。 那么,当我们读到精彩绝伦的文章时,我们应该怎么保存?微信收藏么? 我的建议是:怎么保存都可以,但别用「微信收藏」。 一 为什么我不推荐你使用”微信收藏“ 1.1 只保存网址,不保存内容。 绝大多数情况是没问题的,但是有时候由于种种原因,文章会被微信屏蔽,亦或者被作者删除。这个时候,虽然它在你的收藏列表里面,但是你已经无法再查看它的内容了,这就完全丧失了收藏的意义。 作者删除 内容被屏蔽 1.2 平台兼容性差 在手机上看到的值得记录的文章或许我们还可以「发送到微信收藏」。但如果在电脑上,再使用微信收藏文章恐怕就没有那么方便了,总不能来回复制粘贴吧。 那我们怎么做才能真正意义上收藏文章呢?推荐你使用第三方云笔记。 二 使用第三方云笔记 2.1 云笔记收藏不怕原文被屏蔽/被删除的原理 微信收藏只记录网址,不保存内容。但是第三方云笔记通常会既保存内容,也保存网址。哪怕文章被微信屏蔽了,自己依旧可以查看使用第三方云笔记收藏之后的内容。 如果把一篇文章比做成一个房子,那么微信收藏是只保留了钥匙(网址),所以房子一旦被拆除(被删除/屏蔽),钥匙也就毫无意义。而第三方云笔记的收藏功能则是另外建造了一栋一模一样的房子,所以即便原来的房子没有了,我们仍然可以看到原来的房子是什么样子。 2.2 使用云笔记的优势 2.2.1 可以剪藏内容 原理中已经介绍得很明白了,这是真正意义上的收藏。文章的具体内容会保存到你的云笔记本里面,便于日后查看。 2.2.2 多平台兼容,支持网页剪藏 微信:支持 一键发送到云笔记 电脑上的浏览器:支持 一键剪藏 App:支持分享到云笔记应用 一键发送 OneNote 剪藏网页 2.2.3 可检索性强 由于文章的内容已经被保存到了我们自己的笔记本里,所以即使日后我们忘记了文章的标题,我们仍然可以通过检索零星的字词快速定位到目标文章。 2.2.4 生态相对完善 专业的云笔记平台一般会和多家平台合作,针对不同内容平台进行专门的优化,也可以和其他工具形成联动。更可以使用 IFTTT,这类自动化工具实现更多玩法。 ...

May 16, 2019 · 1 min · 立行

图床使用及迁移:写在新浪图床失效之后

新浪微博图床在近期已经逐渐开启了防盗链,导致不少曾经依赖新浪微博图床的博客图片均无法显示。 本文总结了在迁移图床、重新选择工具上面的一些经验。希望对你有所帮助。 一 迁移 1.1 一键迁移至阿里云OSS 1.2 数据库替换链接 1.3 批量保存微博图床图片到服务器(wordpress) 1.4 批量保存微博图床图片到本地 视频教程 1.5 总结的一些非迁移方法(暂时可用) 修改域名 修改referrer 切换 http 内嵌 iframe 第三方反代 二 Windows 平台图床工具选择 2.1 Mpic 图床神器 Windows 平台下应该是最好的图床工具了。有如下的优点。 多种格式选择 截图/复制图片自动上传 链接自动复制到剪贴板 图片自动瘦身 … 缺点是只支持七牛云。 2.2 PicGo 新晋的 Windows、Mac、Linux 全平台图床工具。支持微博图床、七牛图床、腾讯云 COS v4/v5、又拍云、GitHub、SM.MS、阿里云 OSS、Imgur。 PicGo 另外支持插件 官方使用说明,关于 PicGo 的更多介绍,你可以查看这里 三 Mac 平台图床工具选择 3.1 iPic Mac 上的图床神器,目前支持微博(即默认图床)、七牛云 、又拍云、阿里云 OSS 、腾讯云 COS 、Imgur 、Flickr 、Amazon S3 支持复制上传、手动上传、拖曳上传。 作者的开发历程,更多介绍 同时还有 iPic Mover,可以通过 iPic 上传 Markdown 中的图片(包括本地或网络图片)至新的图床,并替换 Markdown 中的图片地址 ...

April 28, 2019 · 1 min · 立行