杂记 | 杂谈by立行

精准转写：利用 Whisper 处理音视频转文字-不完全指南

背景前阵子女朋友去读研，授课是全英的，加之又有很多专业名词，有时就会出现理解能力跟不上讲课速度的情况。因此借助课堂回放/录音复习也变成了一项每周必做的工作，但是完全回看一个三小时长的课程显然是不现实的，所以，音视频转文字就成了必选项。方案选择商用 ASR 服务大多难以实现高精度转写我是飞书妙记的会员，所以遇到了这个需求，我马上想到先用妙记试试。然而，尝试转录的结果表明，妙记在专业课程上的转录准确度相当差，无法满足通过文字转录来提高复习速度的需求。妙记转录结果：词汇未转录、转录错误问题频发其他商用服务(如通义听悟、讯飞听见、Notta 等)的转录效果和飞书妙记差不太多，大体原因有三点：手机远距离收音比较差，音频文件质量不高。一般的商业自动语音识别(ASR-Automatic Speech Recognition) 服务主要面对会议等日常场景。但若音频内容含有过多的专业词汇，此类 ASR 服务则有点力不从心了。商业 ASR 服务需在速度、准确性和成本之间取得平衡，高准确度通常需要以成本变高、速度变慢作为代价。基于问题 2 和 3 ，我放弃了继续寻找其他商业 ASR 服务的想法。 Whisper 的惊艳效果因为平时业务里我自己基于 OpenAI 发布的 Whisper API 写了不少工作流，所以我又试了试 Whisper(Large-v2)的转录效果。——非常惊艳，甚至连符号的写法(theta_i^t)它都转写了出来。 Whipser LargeV2 转录结果：精度高到甚至照顾到了符号写法这里简要介绍一下 Whisper，Whisper 是 OpenAI (没错，还是 chatGPT 背后的公司)在 2022 年 9 月开源的音频转文本的模型，它的转写精确度非常高。但想使用 Whisper 进行转写也并非易事。它有两种实现方式：云端 Or 本地。云端转写的优势在于不会受到本地机器性能的限制，且速度相对较快。但它存在两个问题：项目处理流程复杂：OpenAI 的 Whisper API 限制单次请求的音频大小为 25Mb，而一节 3h 的音频通常都会有大几十 MB。这就需要对音频先做分段处理，再请求结果，最后合并结果。如果是 mp4 文件则还需要从中抽取音频文件，这个过程里没少踩坑。成本问题：OpenAI 的 Whisper 模型 1min 收费 0.006 美元，1h 的音频按照 7.3 的汇率需要收费 2.7 元。坦白讲，Whisper 的 API 价格非常便宜了，几乎只是 Google Speech2Text API 的四分之一。但是，如果我们假设有 5 门课程，每堂课长 3小时，每周有一次课，那么每个月的转写成本 = 5 x 3 x 4 x 2.7 = 162 元，这个价格还是有点肉疼。本地转写的话倒是没有上述两个问题，但本地转写的麻烦之处在于： ...

备份手机微信聊天记录到电脑，解决提示问题"当前网络环境复杂，请尝试使用其他网络"

测试设备 Windows 微信 3.7.6.44 Android 微信 8.0.34 红米 K50，MIUI 13 背景我有一个持续了三年的习惯——每周备份当周的微信聊天记录。但微信的备份功能做得实在是很烂，经常遇到网络问题：当前网络状况复杂，请尝试使用其他网络提示手机和电脑的网络不一致( 明明都在同一个 WIFI 下，备份界面显示的网络名字也一致) … 在互联网上搜了一下，解决方案也无非是：重启微信/手机给予地理位置权限(Android)/给予 Local Network 权限(iOS) 但实操下来不能百分百解决问题。真正的解决方案按照下面的步骤来操作，我这里从未失败过。前提手机和电脑在同一个 WIFI 下面(2.4G 和 5G 最好区分开) Android 给予了微信定位权限(因为定位权限里包含部分 WIFI 的信息)，iOS 给予了微信 Local Network Access 权限 Android 的定位开关为开启状态。遇到网络问题，提示无法备份 Kill 掉微信的进程，要到应用信息页面『结束进程』，在 MIUI 上是『长按图标』=>『应用信息』=>『结束运行』微信 PC 版本点击『迁移与备份』=>『迁移』(没错，先使用迁移，而不是备份)。迁移一个体积很小的聊天记录，让手机和电脑之间完成通信过程。等待迁移成功后，点击『备份』，通常这时就不会有网络问题了。如果还是无法解决？建议重新检查上面的步骤。

写在迁移之前

大学时我曾经有一个搭在阿里云上的 WordPress 站点存放着历史的文章，一年一百多的价格也还可以接受。但毕业之后，一方面折腾的心思变少了，一年也更新不了几篇文章；另一方面，续费的价格直接升到了 1300 左右，想想这个投入产出比，遂将老站关停。但编程和写作是我们这个时代普通人最容易接触的杠杆，所以——还是应该尝试努力输出。作为一个懒人，让我能坚持做一件事的前置条件是我可以把这件事的门槛放到很低。Hexo 虽好，但对我一个偶尔写代码的人而言还是有点复杂了，挫伤了输出的积极性。选择 Gridea 就是因为它足够简单，有个客户端可以直接开始写。不过也不是没有顾虑，看作者上一次更新还是在 2020.10，比较担心后续没有人维护。但，Anyway，先写了再说。这个博客还是打算放一些和工作无关的折腾的内容，之前历史的文章也会逐步迁移过来。好风凭借力，送你上青云。

B 站？Why&How？

B 站？Why&How？大概是在 2019 年下半年，我的信息源里面开始频繁出现 B 站的相关消息。 B 站 UP 主“独立菌”给曹大引了数千粉丝半佛仙人、巫师经济学在 B 站的迅速崛起视频战争 2019 身边朋友有的一天看几个小时 B 站视频虽然之前早就注册过账号，但一直把 B 站当成一个二次元社区，很少打开。后来看了一下才发现 B 站的内容池原来已经这么大了，除了动画还有科技、生活、时尚、娱乐、广告…我在 B 站学知识真的不是一句虚言。 B站的主页分区 2019 年 12 月尝试在 B 站占坑，希望 2020 能做到 1000 粉丝（尽管目前进度 1%）。现在感觉还是有些困难的，因为目前在做的内容和 B 站的调性不是很搭，数据在西瓜反而好看很多。不过时日还短，坚持做一年再看看数据如何。写这篇文章主要想分享一下我对视频内容的一点思考和理解，未必正确，只是记录。本文分为两个部分，Why & How 为什么要做 B 站？ 1 视频时代已然来临，B 站的门槛相对于抖音和快手较低博客-微博-抖音/快手，媒体的篇幅从长到短，媒体的形式从文字到图文再到视频。背后是随着基础设施的逐渐完善和内容发布门槛的逐渐降低，内容生产和吸收慢慢从社会金字塔的顶层过渡到整个金字塔。视频相对于图文更易于理解和吸收，自然受众更广。想想点开一篇文章和一个视频，二者的心理压力完全不在一个水平之上。同时，网络提速降费+短视频 App 已经把用户随时随地看视频的习惯培养起来了，可以说视频时代已然来临。有的人会说，短视频只要个手机就能拍，长视频可能还需要电脑进行后期处理，分明是短视频的门槛更低才是。这话不错，拍摄门槛的确是短视频较低，但我想说的是做起一个账号的门槛在 B 站是要低于抖音和快手的。短视频 15 s 的限制使得每一秒都需要进行精心的设计，几秒内不能吸引用户视频直接就会被切。加之现在早已不是初期草莽年代，随随便便发几个视频就会有大量粉丝。目前在短视频领域能做出来的背后基本都有专业的团队，选材、拍摄、后期、推广都需要花费较多的精力，个人创作者如果不是内容有远胜于人的优势，很难在抖音快手起量。而 B 站尽管视频制作上需要一定的门槛，但这样的门槛也过滤掉了一部分创作者。同时 B 站目前创作者的商业化能力是不如抖音快手的，除了有限的几个区可以靠接广告过活，很多内容是空有播放量但是创作者没赚到钱（激励计划也只是激励），这也就导致了 B 站的竞争没有抖音快手激烈。 ...