“灵犬”，技术自我进化的能力

2020年3月18日APP评论字数 4597阅读15分19秒阅读模式

灵犬反低俗助手app

刺猬公社发布时间：19-08-02 北京小猬信息科技有限公司
作者 | 石灿金木叶编辑 | 铁林
今天的文章，我们从三张图开始。

“灵犬”，技术自我进化的能力

某购物平台上的女郎内衣服装图。

米隆雕塑《掷铁饼者》罗曼锡青铜复制品，公元2世纪，藏于慕尼黑古代雕塑展览馆。

米丝蒂·科普兰和詹姆斯·怀特赛德在《天鹅湖》中。

是不是觉得这几张图不该出现在我们的文章里？别着急关掉，我们可没别的意思。

我们想说明一个问题，这些图的含义会在不同时间、场景产生不同变化。

购物平台女郎内衣服装图出现在在购物平台上无可厚非，《掷铁饼的人》图出现在博物馆里再正常不过了，你要是在剧院里看到舞蹈演员跳天鹅湖，会持欣赏态度去赞赏。

他们自身的意义被人赋予，人会受到周遭环境的影响而产生不同判断。就在我们以为各种内容位居其位时，它们实际上正发生根本性改变。

每年我们生产出800万首新歌，200万本新书，1.6万部新电影，300亿个博客帖子，1820亿条推特信息，4万件新产品。

凯文·凯利在他那本著名《必然》中如此写道。

技术进步，将人类的产生新观点、制作新事物的生产力完全从工具的枷锁中释放出来，“今天制作一个简单的视频要比10年前容易10倍，写作并出版一本图书要比1000年前容易1000倍。”

而且技术还在不断降维，人类的内容生产力还在持续提升。

就以图片为例，全球每年新增的图片数，2013年是0.6万亿张，2017年是1.4万亿张，短短4年足足翻了一倍。

1.4万亿张意味着什么，意味着每天上传一张，得上传38亿年。要知道，地球年龄的最佳估计值也就45.5亿年而已。

信息大爆炸，带来的一个巨大挑战就是如何过滤。《必然》一书的副标题叫“理解将塑造我们未来的12种技术力量”，其中一种，就是过滤。

“过滤”势必会成为未来深刻影响我们生活的一种技术。

凯文·凯利也认识到，虽然传统的过滤机制仍在发挥着作用，“但在处理未来10年急剧增长的各种选择时，我们就要发明出更多类型的过滤方法。”

“过滤”首先承担的是“守门人”的角色，这是它必须坚守的底线和构建的壁垒。近来年，无论中外，互联网世界都始终笼罩在被“黑产”和“灰产”侵扰的阴影中，色情、暴力、赌博、迷信、恐怖言论、种族歧视、诈骗、虚假广告……它们就像四处蔓延的污水，侵蚀着一个个平台。

如果纯靠人工审核，这是难以估算的工作量。

就以今日头条为例，每天用户上传的文章数量达60万篇。如果每个内容都要人工审核，审核团队规模可能得10万人起步。

这就像电话出现的早期，不同线路都需要接线员处理。美国电话公司曾惊讶地发现，按照电话普及的速度，几年后，所有美国女性都当电话接线员还不够。

很显然是不可能的，技术将改变这一切。技术也将承担第一层“过滤”机制，充当第一道门的“守门人”。放眼全球，所有互联网公司，多多少少都会依赖技术来解决第一道门的“守门人”问题。不管是国外的Facebook、谷歌，还是国内的微信、今日头条，都是如此。

但目前来看，在国内，今日头条是较多愿意对外展示他们的技术审核机制的，这也得以让外界管窥这个以算法和内容著称的公司，是如何通过技术的手段，在海量信息时代提供第一层把关的解决方案。

7月30日，今日头条发布“灵犬3.0”。“灵犬”的全称“灵犬反低俗助手”，2018年3月发布1.0，经过三次迭代，目前同时支持图片和文本识别。

“灵犬3.0”发布的同时，今日头条还举办了一场“算法如何反低俗”的沟通会，由字节跳动人工智能实验室总监王长虎分享“灵犬”背后的反低俗技术原理。

字节跳动人工智能实验室总监王长虎分享“灵犬”背后的技术原理

虽然是技术男，但不得不说，王长虎的分享做了很好的降维处理，非常深入浅出。

相比于人，机器的优势自不待言：

比如计算快，一秒钟能执行百亿次计算；比如存储大，轻松存储千亿以上汉字；比如稳定，不会因心情、状态等影响处理结果。

“灵犬”，技术自我进化的能力

但机器也有机器的局限，尤其是面对文字这种博大精深的对象物。在早期，机器还没那么“聪明”的时候，它的工作原理更像是word文档里的“查找”功能，需要匹配相应的词汇库。用王长虎的话就是，“机器将信息转化成二进制的0和1存储下来，以此为基础，表达文字、图片。人编写程序，即一组指令，机器按照顺序执行，对既定的一段存储做操作，最终输出结果。”

这种把关机制就像“马奇诺防线”，可以轻松绕开。早期互联网用户很多都有这种经历：在输入内容的时候，只要把其中一些词改成拼音，或在中间空上一格，就轻轻松松地避开了机器审核。

但现在，僵化的“马奇诺防线”已经不存在了，过去十年里，技术领域出现了最大的技术进步：机器学习。“这样一来，人不需要写出具体的指令序列，也能让机器做很多的事情……在机器学习的状态下，人只需要提供充分、具体的样本，机器经过训练就能总结出一套判断准则。”

王长虎说，灵犬正是机器学习反低俗的产物。

那如何才能让机器像人一样思考呢？接下来就是非常“硬核”的部分了，估计看到本文的绝大部分人都不懂其中的原理。

王长虎介绍说：

第一版灵犬，采用的是词向量与CNN技术。词向量是让词蕴含语义信息；CNN是卷曲神经网络的缩写，这种技术架构性能好、速度快。

第二版灵犬，用的是LSTM和 Attention技术。LSTM是“长短期记忆”的缩写，这种神经网络可以很好地对序列进行建模，对长句的识别非常好。Attention是注意力机制，可以结合词与词之间的信息，对句子有更全面的了解。

最新的版本，用的技术是Bert技术与半监督技术，Bert是当前最先进的自然语言理解技术，是这个领域进展的集大成者。Bert开展了新的更大规模的网络结构，并且使用半监督学习技术，可以利用天然的超大规模的语料库进行训练，使得对语义的刻画更精准。

什么是半监督？

半监督是相对于监督机制来说的，监督机制是用标注数据来训练模型，半监督既用有标注的数据，也利用一些没有标注、更大规模的数据来训练。半监督技术的好处，是可以用更大规模的语料库来训练模型，效果更好。

灵犬1.0到3.0，文本识别的准确率从79%提升到91%。

这还只是文本识别，对比之下，图片识别就更麻烦了。“灵犬3.0”的新系统可识别图片，这是灵犬的一大里程碑。

王长虎说，图片识别的难度在于：

文章由段落构成，段落由句子构成，句子由字词构成；两段低俗的话，可能运用了某个相同的词，而字、词作为段落的最小单位，是可以被分割出来，并一一加以识别的。但两张低俗的图片，构成的特征千差万别，与文本不一样的是，图像识别的特征提取，无论是初级特征的形状、颜色、纹理，还是高级特征里的语义，其数量是无限的，不可穷举。

而灵犬运用的解决方案，不仅是“机器学习”，而且是机器“深度学习”。深度学习有三个要素：一是数据量，二是算力，三是模型。王长虎说，灵犬在数据层面累积了上千万级别的训练数据，在模型层面，针对许多困难样本做了模型结构调优。

至于算力，这就只能期待NVIDIA等大厂的进化了，王长虎说，灵犬也在利用分布式训练算法以及GPU训练集群，加速模型的训练和调试，利用模型压缩技术，提升模型的预测速度。

那为什么还需要人工判断呢？

不信你看看下面这两张图，你说它们是不是低俗的。

篮球宝贝正在篮球中场休息时间热舞活跃气氛。

《自由领导人民》是法国浪漫主义画家欧仁·德拉克洛瓦为纪念1830年法国七月革命的作品，艺术价值极高。

机器遇到这种情况就很难搞了，它还是要根据具体的情况来判定。

事实上，世界上大的互联网公司，包括Facebook和谷歌，都组建有人数众多的人工审核团队。

原因肯定还在于，机器虽然聪明，仍然有拿不准的时候。就像3.0版本的灵犬，文本识别准确率虽然提升至了91%，但还有差不多十分之一的内容没法做出判断，这一比例已然放在海量内容面前，已经非常巨大。

王长虎也说，没有算法是完美的，灵犬也还在不断地提升和迭代。另一方面，反低俗这个问题，其实是比较复杂和比较困难的。

他说，至少在一些方面，现阶段还有赖于人工判断。

机器只是把文字当成符号，从表面去理解它。就像盖房子的砖块一样，机器只能把这些砖块罗列和堆积起来，不完全知道某些砖块可能比另一些砖块更为重要，有些砖块需要转换一下角度来看，或者跟别的砖块搭配在一起看才合理。

这让我想起了网上流传的所谓汉语八级考试中的一道题：

领导：你这是什么意思？
小明：没什么意思，意思意思。
领导：你这就不够意思了。
小明：小意思，小意思。
领导：你这人真有意思。
小明：其实也没有别的意思。
领导：那我就不好意思了。
小明：是我不好意思。

让机器来理解上面的“意思”分别是什么意思，估计要疯。

图片也是如此，王长虎说：

从图片的角度，技术同样存在“一刀切”的局限。例如色情内容，机器通过识别肌肤裸露面积来判定是否违规，而这个会让一些具有历史意义和艺术性的照片受到波及。

他介绍，Facebook 曾经因为“裸露”，误伤了一张著名的越战新闻照片，照片里一位小女孩遭到汽油弹炸伤、浑身赤裸奔跑。今日头条也有过类似的情况。很早的时候，头条平台下架了一张关于吴哥窟塑像的图片，塑像虽然“露点”，但其实是名胜古迹。再比如芭蕾舞蹈。一些拍摄芭蕾舞的图片，以机器的视角来看，它很类似于裙底偷拍。

另一方面，技术还很难搞定的是，由于使用场景、人群、时间而导致标准变动的内容。王长虎在这一部分举了两个很有说服力的例子：

在八十年代早期，邓丽君的歌曲曾被认为是“靡靡之音”。1982年，人民音乐出版社出版了《怎样鉴别黄色歌曲》，里面就批判了邓丽君歌曲。但时至今日，邓丽君演唱的歌曲，已经成为了华语经典歌曲的一部分。

不得不说，身在一个以运营内容著称的公司，技术男也有了很好的内容理解力和创作力。

灵犬解决不了所有问题，所以今日头条的反低俗系统，远不止于灵犬。今日头条目前除投入近万人的专业审核团队外，还搭建了反色情、反低俗、反标题党、反虚假信息、反低质模型数百个，结合人工、技术手段，提升内容安全的效率和准确度。

至于灵犬，自去年3月推出第一代以来，到今年6月为止，使用人次已经超过了300万。

灵犬背后的今日头条的反低俗系统，自2012年建设以来，支撑着这个信息平台24小时平稳运作，每天都在迭代。对于它，王长虎用这样一句话来总结：可能是全球最实用的反低俗系统。

你有想过吗？

“灵犬”背后，可能隐藏了今日头条真正的生产力——技术自我进化的能力，以此来推动生产关系发生变革。

继续阅读