人工智能是共产主义的春天吗？（上）

2019-3-4 23:57| 发布者: 龙翔五洲| 查看: 89612| 评论: 0|原作者: 载言|来自: 激流1921

摘要: 2019年1月20日，载言同志在“好家伙”线上讲座向大家详细讲述了人工智能的技术现状，并在此基础上讨论了人工智能行业的现状，以及人工智能对社会矛盾产生的影响。

然后看到这文字内容，比如说什么东西是免费的，我要营销这个什么东西肯定宣传免费，我一看到免费的两个字，我就可以把它扔倒垃圾邮件里面，因为肯定对用户没什么用。你可能会看到SCI会议投稿，或者说国内xxx，垃圾的会议投稿，当这个垃圾邮件系统发现这些文字的时候，我也得把它分成垃圾邮件里面。而正常的一些邮件，它可能会分析出一些完整的事情，我就把它放到正常的邮件中去使用。

还有手写字体的识别，就是OCR系统，这时候给另一个图片去判断图片上的文字是什么。

他现在广泛使用的车牌识别，还有像图像的分类，就看到一种花是什么样的花，还有人脸的识别，这都属于分类的一些典型的应用。

然后在这个领域中，还有一个很重要的分支，就是这几年发展就深度学习，和普通的机器学习有几种不同？它本质的话，其实就是深度学习它是一个非常复杂的函数。这种非常复杂，可能人都没有办法去理解，但反正它是可以构造出来的。

它动机就是人的一个神经元结构，它是分层的。你说我们考虑我们一个听觉的系统，这个系统先通过耳蜗对吧？然后耳蜗把信号处理掉，给了大脑皮层，大脑分好几种区域，比如说V1区，v2区，v3区，然后v1区把信号处理给Av2区，v2区把信号处理给v3区，最后呢信号到了脑的一个言语临界的这样一个系统，去得到正确的信息，然后这些正确的信息去指导人去做下一步的决策。

神经元结构是高度分层的。那深度学习，就基于这样一个动机，它就会设计一些分层的网络结构，那种网络本身其实就是复杂函数的复合。比如说第一层一个输入f，第一层套一个f1，第二层把f1输出，然后套一个f2，然后快f2输出然后套套套，然后套了好几层，就是套了L层，最后得到真正结果。

所以可以发现就这个函数是非常复杂的，一个简单点函数，可能就是之前说的y=wx+b，这样一个线性函数，复杂的话就是，我可以直接给定一张图像，然后对这个图像就是用卷积等等操作，处理，当然卷积是一个什么大家可以网上去搜一下，这都属于大学里面的一些基本的内容。

然后函数的优化也很简单，因为我们是能够把问题定义，比如说可能输出结果是一种类别，或者输入结果是某一个数，我就可以根据这个类别信息，根据数的信息确定一个代价的函数，然后这个代价函数，我就可以进行优化。优化也有一些特定的方法，这个就不多介绍了。

其实反正本质的话，深度学习相对普通学习一个优势，就是说叫没有中间商赚差价。他的意思就是说，比如说给他一张图像或视频，这样一个非常复杂的数据，那这个非常复杂数据，我用一个很复杂的函数处理，我都可以得到最后的结果，比如说分类，复杂函数得到0到9这个数字的结果。

下面就可以看到，一个非常典型的结构，就是给定一张图片，这个图片就有非常复杂的这个函数结构。这些函数结合，最后输出的结果就是它的分类结果。

以前的时候，机器学习怎么处理，它可能会有一些其他方法去判断。这张图里面文字有多少条直线，比如说这里面有三条直线，这三条直线我们能够判定，它可能是A可能在H。然后在三角之间的关系去构造一种特征，就说这可能是一堆实数的组合，然后用一个分类器，来进行分类，最后分类的结果。

但是深度学习的话，我就可以把这两个过程融合到一块，用一个非常复杂的函数去得到解。

就这么一个设计思路，其实在当前人工智能领域，得到一个飞速的发展。比如说图像的识别，有一个任务，有一个任务是这个图像的分类任务，就是说给定一张图像，这个图像里面有一个物体，物体里面它是包含在人类生活中一千个不同的实体，比如说是一种鸟一朵花或者一条狗一只猫等等，它有不同的标签，我要根据这张图片去判断这个里面的目的，到底是一个什么样的标签。

但怎么去定一个错误率，就是说我可以一个人或者机器，我可以对这张图片打五个标签，如果这五个标签里面有其中一个，和这张图片真实的表现相同，我就认为它是针对错误，我们认为它是分类正确，否则就认为它是分类错误。早期的话它就分类错误率多少，可能百分之比将近30%，但自从有了刚才所说的深度学习，这个分类错误就一路下降到了2017年，它分类错误率是多少？2.5%。而一般来说一个熟练去做分类的人类，它的分类错误率是多少？大概是5%。

所以说你会发现有一些非常差的标题党，经常会发一个什么重磅，某某领域的机器识别的性能已经超过了人类，它本质是什么样的？就是在这些特定问题上，比如说这种分类的问题的准确率上它超过了人类，然后人脸识别也是，他可能是在这个两个人脸，它是不是属于同样一个人，在这个问题中就是要回答是或者否，他超过了人类。

其实这个问题从人的角度来说，它是个非常简单的问题，输入这张图片，输出，就是看到就是哪个类别，0-1？1-1000？你其实输出一个数就可以了，这种简单的问题机器现在都是可以解决的，并且超过了人类的水平。

而这种深度学习还有另外一个特点，就是说它需要高度依赖大规模的数据，然后会说对当前人工智能的意味着什么？也就是说以前的数据量比较少的时候，它分类准确率是非常低的。

（ppt演示）我看右边图标，先看绿线吧，在以前的机器学习算法数据量增长，性能逐渐提升。当然其实数据做到一定程度的时候，机器学习的算法可能无法继续，性能就无法继续提升了，但有了深度学习就不一样，我只要有更多的数据，我就能获得更好的结果，于是现在就出现一类领域的数据的标注员。

另外还有一个就是强化学习，强化学习的本质就是它是一个自我学习的过程，就是我提一个问题，然后这个问题，他可能比如分成好几部，比如说我要做题，做数学题，就分成第一步第二步第三步第四步，做完这个题，然后有老师去判断，这里面就可能说总分12分，给你八分。好了，机器回过头来，我就要去判断我这样的一个解题的步骤，存在哪些问题，好像发现可能第一步存在问题，我就去优化一下第一步。然后我再重新再尝试把这道题做出来，第一步第二步先把这道题做出来，这时候可能有一个老师会跟你说，你现在得了9分，好像这一步可能是从错误变成正确了。我再找出来第三部又出了问题，然后把第三步来修改一下。然后第一步第二步第三步再做那道题，那么做完这道题得了12分，这就是强化学习的概念。

有个非常经典的应用，就是在围棋领域。刚才我们说了，在下棋的时候一个比较简单的方法，就是暴力搜索所有的可能情况，在国际象棋，象棋，五子棋，还有刚才那个“井”字棋，都是可以用这个策略的，为什么？因为搜索的步骤其实比较小的，你像国际象棋可能只需要搜索上百亿步就可以了，上百亿步，其实对机器处理是非常简单的，因为机器每秒，一般普通机器就可以计算上亿步，一个很好的机器，可能可以计算上百亿股的，所以说我只要对棋局下面所有可能的情况，然后就可以指导人工智能这个模型去走一个最合理的步骤。

但是对于围棋就不一样了，围棋每个下棋的步骤可能都是多少？有361步的。你下上几步的话，基本上它所有走的可能情况可能比宇宙中的原子数量还要多，对机器来说是根本没有办法处理。刚才有一个同志的提一个问题，就是说所有的步骤，你把这所有的步骤算下来，这是不是浪费资源，确实计算机它就是出这么处理的，我只要有多少资源我就可以下多少步，我们不管有些搜索步骤是不是对人类是合理的，反正我把所有的步骤穷举一下，我就能得到最好的结果。

AlphaGo也是这样处理思路，但是他做了很多的改进。AlphaGo因为有了深度学习，所以说它就有个棋感，我可以把棋谱输入到一个神经网络里面，然后获得这个棋谱，就当前的棋局，它可能获胜的概率，会输入0到1之间的实数，这实数就是概率，概率越高的话，我就要越有可能走这一步。

这个模型怎么去学习呢？是因为在国际比赛中其实有大量的棋谱，我是把棋谱和其余的结果用到神经网络模型里面去进行学习，其实网络就能够获得棋感，也就是说我给你当前棋局，我就能知道大概下一步能够下哪些可能的位置了。

然后基于这些可能的位置下到可能的位置，比如说可能每一步我至少要到十个最有可能的位置，我说那行，其实我就可以做暴力搜索，每一步模拟找到几个最有可能的下法，然后去做到最后的结果。这就是AlphaGo第一步学习的方法，让其棋力提升，就通过刚才强化学习的方法，就是我自己去做，然后每次对弈肯定是有输赢的，有没有这个模型的话，那我就去判断我为什么去赢，把相应的步骤去进行优化的话，我就判断我哪一步可能输了，让我对这个输的哪一步再进行优化，就会得到更好的结果。

刚才讲的人工智能的一些基础的理论，我做了一些简单的总结，就是目前解决的问题其实就是一些决策问题，就是这个问题有非常明显的规则，比如说分类问题，识别问题，检测问题，还有路径的规划问题。当然还有一些部分是数据的生成问题，比如说图像的生成应该生成这些问题也是高度规则性的，都是可以解决的。

然后哪些领域取得突破，就刚才三大领域里面对的内容对机器较难，比如说语音识别，图像的识别，视频的分类，然后复杂棋类的竞技电子、竞技游戏等等，其实都是取得巨大突破，或者简单来说就是任何可以沿着路径的问题，其实都是取得了重大的突破。

但问题是对人类很难的问题，机器基本上是没有办法处理，比如说我去发掘新的概念，必须是没有办法处理。

人工智能其实还有很多现实的问题，比如说第一点，刚才讲到了目前的人工智能的模型，如果是数据量越多的话，学习的性能越高的，所以说人工智能高度依赖这样我们所要学习的数据，这时候就产生了一个行业:数据标注员。

比如说对于人脸识别来说，我希望把所有的我需要的人脸，如果是我要看到这个人的眼睛在哪里？鼻子在哪？嘴在哪？那我就需要就是把人的鼻子眼睛嘴，X轴Y轴的位置，都要标注出来，这个需要数据标记员来说肯定是非常高的。没有这些标注，你人工智能系统都没有办法去判断人脸的这些眼睛，鼻子的位置在哪里。

所以会发现数据标注本身其实蕴含了大量的人类知识，这其实我们可以推断一个基本的结论，就是目前的人工智能是完全依附于人类的，不可能去创造出新一些新的历史，因为人工智能所创造数据这块，都是依赖一些人类的先验知识。

第二点的话，就是人工智能它高度依赖计算资源，比如说现在一些人脸识别的系统，它一般都是只能放在后台的大规模的集群计算机里面去进行计算，手机上是没有办法实施进行处理的。

第三点的话，就是就是说有一个词叫做过度拟合易攻击，举个例子，我们比如说对于数据这个问题，比如说可能有一些在人工智能领域，可能有些不太能依靠这种智能去解决，比如说用AI去预测某个人他有没有犯罪的倾向，这个东西其实很容易引起社会争议，为什么？因为你从全球的角度来说，黑人或者说像长长胡须的一些人，他一定会有更大的可能被判断为犯罪分子。很简单，是因为在社会中黑人，或者留长胡须的人，因为受到社会的影响，还有他们社会地位比较低等等各种因素，它们的犯罪率是远远高出其他人，这时候其实就会产生大量的政治不正确，比如说像种族歧视的问题。

还有一个最近可能出现，有一些新的方案，比如说用AI去判断一个人是否有党性，你说这种东西怎么去判断，还是我先找到一堆历史的数据，这些历史数据，比如说可能是人参加组织生活的这种次数，比如在微信里面发表反动言论的这种频率等等，然后这个人是否在工作场合是否工作等等这样一些特征，去看看这个人可能党性比较好，党性不好。当然你像当前的环境，你是否党性测试会产生指鹿为马的可能性呢？谁都不好说。

这是第一点，第二点的话就是模型它可能易受攻击，我们举这么一个很经典的例子，对，（ppt演示）左边是一张原始的图片，这是大熊猫。但是我加一个很微小的微小的一个噪声，把这个噪声压到咱图像里面，会发现这张图片，可能以很高的概率去识别成长臂猿了。这在当前机器学习的领域是一个非常常见的现象，而且这个现象目前来说没有办法有效解决。为什么？因为这个模型一般来说非常的复杂，模型非常复杂，这个前提之下，你这个模型复杂，它可能会遇到一些非常奇怪的结果，

大家可以下去就画一个，比如说大家可以下去去画一个，比如刚才图书那个问题，总共不是一百个点，一百个点用一次函数去拟合的话，发现可能很多点你可能误差都是非常完整非常大的。

然后有一个很简单方法，我可以用一百次函数去拟合，这一百个点很明显，每个点肯定都是能够拟合得非常好。想象一下都可以知道，一百个函数在整个空间里面，它可能是上下跳跃的幅度非常大，这个就带来一个很现实的问题，就是过度拟合。就是说我可能预测480页这个书有多少钱话，我可能预测一个结果:-100，这明显就是一个过度拟合。但是比如有一本书，它在训练数据中它可能是450页，然后它的价格是一百块钱。可能这个模型就很精确的预测出它是一百块钱，但是451页，他要预测的话，它是比如说0.1块钱，这都是有可能的。但是你用线性函数，它就不会产生这样的结果，这就是对抗样本。

还有一个在人脸识别领域，就是有些干扰物，它对人脸识别影响非常大的。比如说上图是一个戴特制眼镜的一张照片，下一步当然人脸所对应的搜索结果，但是会发现肯定它不是同一个人的人脸，但是就现有的人脸识别系统很容易就判断错，所以说大家会在火车站发现，如果说你戴着眼镜的话，基本上是识别不成功的。这个系统，可能会当把你当前照相人脸和身份证上人练，认为不是你同样一个人。

反正总结一下高度依赖数据，高度依赖自然资源，过度拟合易攻击。

另外还有两点就是人工智能现代网络就是知其然，不知其所以然，怎么理解呢？阿尔法去进行下棋的时候，现在就是顶级的一个棋手都不知道为什么要下到这么一个非常奇怪的位置上，而且没有任何道理。这就是知其然而不知其所以然。

所以包括图像理解，我有一个非常复杂的函数，把这张图像的预测结果输出来，但是中间他怎么操作的，人类是不能理解。

另外一点就是人类的一些动作，根本没有办法完成。因为人类都没有办法去定义，就像机器去对这些问题去定义，和学习那是不可能的，因为你没有模型，没有损失的函数及优化等等，这都是没有办法去完成一些探索新的事物。

1 234 下一页