常见的机器学习算法
诞生于1956年的人工智(zhì)能,由(yóu)于(yú)受到智能(néng)算法、计算(suàn)速度、存(cún)储水平(píng)等因素的影响,在六(liù)十(shí)多年的发展过程中经历(lì)了多次(cì)高潮和(hé)低谷。最近几(jǐ)年,得益(yì)于数据量的上涨、运算力的提升(shēng),特别(bié)是(shì)机(jī)器学习新算法的(de)出现,人(rén)工智(zhì)能迎来了大爆发的时(shí)代。
提(tí)到机器学习(xí)这个词时,有些人首先(xiān)想(xiǎng)到的可能是科幻电影(yǐng)里的(de)机器(qì)人。事实上(shàng),机器学习是一门多领(lǐng)域(yù)交叉学科(kē),涉及概率论(lùn)、统计学、算法复杂度理论(lùn)等多门学科。专门研究计算机如何模拟(nǐ)或实现(xiàn)人类的学习行为(wéi),利用数据或以往的经验,以此(cǐ)优化计(jì)算机程序的性能标准。
根据(jù)学习(xí)任务的不(bú)同(tóng),我们可以将机器学习分为监督(dū)学习、非监督学习、强化学习三种类型,而每种类型又对(duì)应着一些(xiē)算法。
各种算法以(yǐ)及对(duì)应的任务类型
接下来就简单介绍几种(zhǒng)常(cháng)用的机器学习算(suàn)法及(jí)其(qí)应用场景,通过本篇文章大(dà)家可以对机器学习的(de)常(cháng)用(yòng)算(suàn)法有个常识性的认(rèn)识。
一(yī)、监督学习
(1)支持向量(liàng)机(Support Vector Machine,SVM):是(shì)一类按监督学习方(fāng)式对数据进行二元分类的广义线性分类器,其(qí)决策(cè)边界是对学习样本求解的最大边距超(chāo)平面。例如,在纸上有(yǒu)两类(lèi)线性可分的点,支(zhī)持向(xiàng)量机会(huì)寻找一条直线将(jiāng)这两类点区分(fèn)开来,并且与这(zhè)些(xiē)点的距离(lí)都尽可能远。
优点:泛化错误率低,结果(guǒ)易解释。
缺(quē)点:对大规模训练样本难以(yǐ)实施,解(jiě)决多(duō)分类问题存在困难,对参数调节(jiē)和核函数的选择敏感。
应用场景:文本分类、人像识别、医(yī)学诊断等(děng)。
(2)决策树(shù)(Decision Tree):是一个(gè)预测模型(xíng),代表的是对象属性与对象值之间的(de)一(yī)种映射关系。下(xià)图是如何在决策树中建模(mó)的简单示例:
优点:易于理解(jiě)和解释,可以可视化(huà)分析,容(róng)易提取出(chū)规则(zé);能够(gòu)处理不相关的特征(zhēng)。
缺点:对缺失数据处(chù)理比较困难。
应用场景:在决策过程应用(yòng)较多。
(3)朴素贝叶斯分类(Naive Bayesian classification):对(duì)于给出(chū)的待分类项,求(qiú)解(jiě)此(cǐ)项(xiàng)出现的条件下各个类别出(chū)现的概(gài)率,哪个最大,就(jiù)认为(wéi)此待分类属于哪(nǎ)个(gè)类别。贝叶斯公式为(wéi):p(A|B)= p(B|A)*p(A/p(B),其(qí)中P(A|B)表示后验概率,P(B|A)是似然值,P(A)是类别的(de)先验概率,P(B)代表预测(cè)器的先验概率。
优点:在数据较少(shǎo)的情况下仍然有(yǒu)效,可以处理多类别问题。
缺点:对输入数据的准备方式较为敏感。
应(yīng)用(yòng)场景:文本(běn)分类、人脸识别、欺(qī)诈(zhà)检(jiǎn)测。
(4)k-近邻算法(K-Nearest Neighbor,KNN):是一种(zhǒng)基于实例(lì)的学习,采用测量不(bú)同(tóng)特征值之间的距离(lí)方法进行(háng)分类。其基本思(sī)路是:给定一个训练(liàn)样本集,然后输(shū)入没有标签的新数据(jù),将新(xīn)数据(jù)的每个特征(zhēng)与样(yàng)本集中(zhōng)数据对应的特征进行比较,找(zhǎo)到最(zuì)邻近的k个(通常(cháng)是不大于20的整数(shù))实(shí)例,这(zhè)k个(gè)实(shí)例的(de)多(duō)数属于某个类,就把该输入实例分类到这个类(lèi)中。
优点:简单、易于理(lǐ)解、易于(yú)实现,无需估计参数(shù)。此外,与(yǔ)朴素(sù)贝(bèi)叶(yè)斯之(zhī)类的算法(fǎ)比,无数(shù)据输入假定、准确度高、对异常数据值不敏感。
缺点:对于训练数据依赖程度比较大(dà),并且缺(quē)少训练阶段,无法(fǎ)应对多样本。
应用场景:字符识(shí)别、文本分类、图像识别(bié)等(děng)领域(yù)。
二、非监督学习
(1)主成分分析(Principal Component Analysis,PCA):是一种统计方法。其主(zhǔ)要思(sī)想是将n维特征映射到k维上,这k维是全(quán)新的正交特征(zhēng)也(yě)被称为主成分,是在原有(yǒu)n维特征(zhēng)的基础上重新构造出来的k维特征。
优(yōu)点(diǎn):降低数据的复杂性,识(shí)别(bié)最(zuì)重(chóng)要的多个(gè)特征(zhēng)。
缺点:主(zhǔ)成分(fèn)各(gè)个特(tè)征(zhēng)维度的含义具有一定的模糊性(xìng),不(bú)如原始(shǐ)样本特征(zhēng)的解释性强;有可能损失有用的信(xìn)息。
应用场景:语音、图像、通信的(de)分析处理。
(2)奇异值分解(Singular Value Decomposition,SVD):可以(yǐ)将一个比较复杂的矩阵用更(gèng)小更简单的几(jǐ)个子矩阵的相乘来表(biǎo)示,这些小矩阵描述的是矩阵的重要的特(tè)性。
优点:简化数据,去除噪声点,提高(gāo)算法的结(jié)果(guǒ)。
缺(quē)点:数据的转换可能(néng)难以理解。
应用场景:推荐(jiàn)系统、图片压(yā)缩等。
(3)K-均值聚类(K-Means):是一(yī)种(zhǒng)迭代求解的聚类分析算(suàn)法,采用距离作为相(xiàng)似性(xìng)指标(biāo)。其工(gōng)作流程是(shì)随机(jī)确定K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间(jiān)的距离,把每个对象分配给(gěi)距离它最(zuì)近的聚类中心。
优点:算法简单容易实现。
缺点(diǎn):可能收敛到局部最(zuì)小(xiǎo)值(zhí),在大(dà)规模数据集上收敛较慢。
应用场景:图像处理、数(shù)据(jù)分析以及(jí)市场(chǎng)研究等。
三、强(qiáng)化学习
Q-learning:是一个基于值(zhí)的强(qiáng)化学习(xí)算法,它根据动作值函数评估应该选择(zé)哪个动作(zuò),这个函数决(jué)定了处于某(mǒu)一个(gè)特(tè)定状(zhuàng)态以及(jí)在该状态下采取特定动(dòng)作的奖励期望值。
优点:可以接收(shōu)更广的数据范围。
缺(quē)点:缺乏通用性。
应用(yòng)场景:游戏开(kāi)发。
以上就是文章的全(quán)部内容,相信大家对常用的机器学习(xí)算法应该(gāi)有了大致的了(le)解(jiě)。
现如今,我们越来(lái)越多地看到机器学习(xí)算(suàn)法为人(rén)类带来的实际价(jià)值,如它(tā)们(men)提供了关键的洞察力和信(xìn)息来报告战略决策。可以(yǐ)肯定的(de)是(shì),随着机器学习越来越流行(háng),未来还将出(chū)现越来越多能(néng)很好地处理任务的算法。