1. 首先感谢公司内部公开课给予我的灵感
  2. 要做到这件事其实并不难,一个抖音&快手类的vlog短视频具备以下元素:视频、滤镜、文字、音乐、旁白,我们只需要将各类元素合并起来即可
  3. 首先是视频,通过自动切分软件,将个人所有的存货视频切片并截图,再由腾讯图片识别(识物,非ocr)打标签,存入数据库备用
  4. 接着是文字,文字可以通过现有NLP相关软件直接生成(基于GPT-2-Chinese),当然为了视频质量更高一些,可以手动输入,目前感觉飞书的机器人交互最好用(别和我说啥电报&微信,一个在国内用不了,一个时刻可能被封掉,稳定性都不强),到时候直接定义一个输入格式即可,也就是时刻可以准备输入,我啥时候高兴想到啥看到啥好的就输入啥
  5. 接下来是滤镜,ffmpeg可以直接套用(https://www.cnblogs.com/cpuimage/p/9022815.html),目前个人数据库里有两万多个lut,到时候看看怎么搞来打标签
  6. 然后是音乐,这个本人数据库里也有各种影视配乐资源,量级k以上;普通适合vlog的音乐更不用说了,直接去网易云音乐爬,到时候研究下怎么切片+打标签
  7. 然后是旁白,也就是模拟人声朗读,这个微软家的小冰同学和她的小伙伴们已经很完善了,花点钱直接买服务就行,以及字幕组件参考@晨旭 的那套音乐台字幕渲染系统
  8. 最后是需要一个大型后端整合上述功能,这里需要一个综合控制后端和N个slave,以及动态线程+进程的调控系统,以及主从系统之间的通信,个人认为消息队列是跑不了了,以及主语言还是选用python的面向对象,如果有系统框架最好,比如爬虫领域scrapy那种,可以部署服务器阵列……
  9. 以及还有渲染,如何组合视频片段?当然是标签弱匹配+shuffle啦!文字用极简风,甚至可以设计几个模板动态切换,成品看得过去,有高级感就行哈哈~甚至可以指定一个视频必须存在哪几种标签的视频(比如人像、升格、延时摄影、航拍等等)
  10. 最最最后不能漏掉的一定是分发,这个到时候再和视频兔兔那帮人谈谈,实在不行还有有专助手垫背,再不济找wrg同学再开发一个私用的抖音接口(咳咳这可不算动用公司内部资源)
  11. 不知道一个人猴年马月能完成,诚招有兴趣的小伙伴加入一起做,商业化之后的报酬按劳分配给你哈~


人生有無數種可能,人生有無限的精彩,人生沒有盡頭。一個人只要足夠的愛自己,尊重自己內心的聲音,就算是真正的活著。