乐动网页版_乐动(中国)


    咨询热线:021-80392549

    乐动网页版_乐动(中国) QQ在线(xiàn) 乐动网页版_乐动(中国) 企业微信
    乐动网页版_乐动(中国)
    乐动网页版_乐动(中国) 资讯(xùn) > 人工(gōng)智能 > 正文

    认知(zhī)体系作为AI的一个(gè)重(chóng)要分支(zhī),它的分类有哪些?

    2020/03/30593

    认知体系作为人(rén)工智能的一个重(chóng)要分(fèn)支,它的研究和应用经过了近40年的(de)发展,已(yǐ)取(qǔ)得了(le)可(kě)见的(de)成果。

    关于认(rèn)知体系(xì)的(de)分类(lèi),目前相对主流的三大范式是(shì):符号(也称为认知)、涌现(也称为联结)和(hé)混合(hé)。到底哪一个正确(què)地(dì)反映了人(rén)类(lèi)的(de)认(rèn)知过程(chéng),仍然(rán)是一个悬而未决(jué)的问题,在过去的30年里一直在(zài)争论.

    符号范式通常(cháng)使用预定义指令集等符号(hào)来表示概念。指令(lìng)通(tōng)常以if-then的规则形式(shì)执行,例如ACT-R, Soar等产生式体(tǐ)系(xì)。这是一种自然而直观的表示(shì)方式,因此符号操作仍然(rán)是一种公认的表示方(fāng)式之(zhī)一。虽然(rán)符号范式(shì)擅长计划(规划)和推理,但(dàn)不(bú)具(jù)有(yǒu)处理环境变化和感知所需(xū)要的灵活性和鲁棒性。

    涌现范式(shì)通常建立大规模并行模型来解决适应性和学(xué)习问题,例如神经网络模型,其数据(jù)来自输入节点。然而(ér),由于信息(xī)或(huò)知识不再(zài)是一组可解释的符号实体,而往往分布在整个网络中,这导(dǎo)致(zhì)模型不再透(tòu)明。在(zài)涌现模式中,传统意义(yì)上的(de)逻辑推理(lǐ)似乎成为不可能(néng)。

    自然(rán)地(dì),每种范式都(dōu)有优(yōu)缺点(diǎn)。一(yī)方面(miàn),任何符号体系结构创建初始知识库需(xū)要大量工作,可一旦完成(chéng),体(tǐ)系结构就(jiù)完全功能(néng)性。另(lìng)一方面,涌(yǒng)现体系结构更易于设计(jì),但它们必须经过大量训练才(cái)能(néng)产生有(yǒu)用的行为(wéi);此外,他们的现(xiàn)有(yǒu)知识可(kě)能随(suí)着(zhe)新行(háng)为的学习而恶(è)化(huà)。

    由于符号和涌现范(fàn)式都不能解(jiě)决(jué)认知的(de)所有问题,混(hún)合范式(shì)试图结合符(fú)号(hào)和涌现的元(yuán)素,这(zhè)样的混合体系(xì)在我们选择的架构中(zhōng)是最常见的。一般来说,混合方式(shì)没有限(xiàn)制,而且已经探索了许多可能性。除(chú)了(le)考(kǎo)虑表示,还考虑(lǜ)系统是单模块还是多模(mó)块、异构(gòu)还是同质(zhì),或考虑混合的(de)粒(lì)度(dù)(粗粒度还是细粒度)、符号和子符号组件之间的(de)耦合性。此外,并不是所有的混(hún)合架构都明确地解决(jué)了所谓的符号和次符号元素(sù)以及将(jiāng)它们组合起来(lái)的问题。只有少数几个体系结构,例(lì)如ACTR、CLARION、DUAL、CogPrime、CAPS、SiMA、GMU-BICA和Sigma,认(rèn)为这种集成是必要的。我们(men)将重点(diǎn)放在表示和处理上(shàng)。

    图1显示了分类分(fèn)组的组织结构。在顶层(céng)分成(chéng)了:符号的、涌现的和(hé)混合的(de)。关于这些术语的(de)界定也是模(mó)糊的,即(jí)使对于(yú)最著名的架构(gòu)(例如Soar和ACT-R)也不能达成一致。尽管(guǎn)两者都(dōu)将符号和次符号(hào)元素结合起来,ACT-R的作者明确地表达为混(hún)合(hé)模式,而Soar没有。各位学者的观点也不一致,Soar和ACT-R在[14,15]中都被称为符号主义者,而(ér)[16]将(jiāng)它(tā)们列为混合(hé)体(tǐ)。

    乐动网页版_乐动(中国)

    图1

    为了避免分(fèn)组的不一致(zhì)性,我们假设显式符号是符号表示(shì)的原子,可以组合成有意义的表达式。这些符号用于推理或句(jù)法分析(xī)。子符号表示通常与神经元(yuán)的隐喻联系(xì)在一起,这种表示的一个典型是神经网(wǎng)络。在神经网络中,知识被编码为分布在神经元之间的数值模式,与单元相关联的(de)权重影响处理(lǐ),并通过(guò)学习(xí)获得。

    对于我们的分类,我们假设任何非(fēi)显式符(fú)号和处理(句法操作除外)都是子符号(例(lì)如(rú)数值(zhí)数据、像素、概率,传播(bō)激活(huó)、强化学习等)。结合了两种表示中(zhōng)的任意组合都被(bèi)当(dāng)作混合模式(shì)。给定这些定义,将标签(qiān)分配(pèi)给所有(yǒu)架构并将它们可视化为图(tú)1。

    我们区分了两(liǎng)类涌(yǒng)现类别:实现类(lèi)生物神经元(yuán)的神经元模型和更接近人工神经网络的连接(逻辑)模式。在混合模式(shì)中,我们将符号子处理(其(qí)中符号(hào)模(mó)式与执行(háng)子符号计(jì)算模块相(xiàng)结合(hé))作为(wéi)混(hún)合模式的一个子类,符号子(zǐ)处(chù)理组中的架构至少(shǎo)包括一(yī)个用(yòng)于感知处理的子符号模块,而其余的(de)知识和处理是符号的(de),例如3T, ATLANTIS, RCS, DIARC, CARACaS and CoSy。虽然存在其他类型的功能(néng)组合(hé)(例如协同处理(lǐ)、元处理和链处理),但是难(nán)以归类。因此,其他(tā)的都(dōu)归(guī)类为完(wán)全集成的混合模(mó)式。完全(quán)集成的体系结构使用多种方法来组合不(bú)同(tóng)的(de)表示。ACT-R、Soar、CAPS、Copycat/metacat、CHREST、CHARISMA、CELTS、CoJACK、CLARION、REM、NARS和Xapagy将符号概念和具有(yǒu)次(cì)符号元素(如激活值、扩散激活、随机选(xuǎn)择过(guò)程、强化学习等(děng))的规则结(jié)合起来(lái)。

    综上所述,混合(hé)架构(gòu)是数量(liàng)最多的一组,并显(xiǎn)示出增长趋势。混合架(jià)构根据(jù)符号和次符号组件的比例和扮演的角(jiǎo)色,在(zài)涌现范式和符号范式之间形成一个连续统。例(lì)如,CogPrime和Sigma在(zài)概念上更接近于涌现系统,因为它们与神经网络有(yǒu)许多共(gòng)同的属性。而(ér)REM、CHREST和RALPH以及3T和ATLANTIS,在很大程度上属于符号范式;因为这(zhè)些架构主要是符号化的(de),虽然可以利用概率(lǜ)推理和学习机(jī)制。

    4 感知(perception)

    虽然(rán)早期的认知结构主要(yào)侧重于高层次的推理,但同样重要的是(shì)感知和行为(wéi)。

    感知可以定义(yì)为将原始输入数据(jù)转换为(wéi)系统内部表示以执行认知任务的过程。根据(jù)输入数据的来源(yuán)和性质可(kě)以(yǐ)区分多种感知模式。例如,最(zuì)常(cháng)见的(de)五种是(shì)视(shì)觉、听觉(jiào)、嗅觉、触觉和味觉(jiào);其(qí)他的感觉包括本体感(gǎn)觉、热感、痛觉、时(shí)间(jiān)感等。

    当然,认知结构也实现了其中(zhōng)的(de)一些(xiē)与人(rén)类感官无关的符号输入(使用键(jiàn)盘或图形用户界面(GUI))和各种传感器(激光雷达、激光、红外等)。根据(jù)其认知功能,智能系(xì)统可以将各种数(shù)量和类型的数据作为(wéi)感(gǎn)知(zhī)输入。

    因此,本节将研究使用(yòng)各(gè)种数据输入,从这些数(shù)据源中提取信息以及如何应用这些信(xìn)息的认知体系。图4中的将(jiāng)调(diào)研结果进行了可(kě)视化。

    乐动网页版_乐动(中国)

    图2:视觉(V)、听觉(A)、触(chù)觉(T)、嗅觉(jiào)(S)、本体感觉(P)、数据输入(D)、其(qí)他传(chuán)感器(O)和多模态(M)

    从图2的可(kě)视化中可以观察到如下情况。例如,视(shì)觉是最常用(yòng)的实现方式,然(rán)而,超(chāo)过一半(bàn)的体系使用模拟进行视(shì)觉输入,而不是(shì)摄像机。触觉和本体(tǐ)感觉(jiào)等(děng)方式主要(yào)用于物(wù)理(lǐ)体现(xiàn)的设计。有些感知未被充(chōng)分探索,例如嗅觉只在三(sān)种体(tǐ)系(xì)中出现(GLAIR、DAC和PRS0)。总的来(lái)说,符号(hào)范(fàn)式在(zài)设计上具有有限的感知能(néng)力,并且倾向于使用直接的输(shū)入数据作为唯一的信息来(lái)源(yuán)(参(cān)见图(tú)的左侧)。另一方面,混合范式(shì)和涌(yǒng)现范式(主要位于(yú)右半部分图中(zhōng)的)使用模拟和(hé)物理传感器实现更广(guǎng)泛(fàn)的(de)感(gǎn)知(zhī)模(mó)式(shì)。然(rán)而,不管其来(lái)源(yuán)如何,传入的感知数据通常不能以原始形式(shì)使用(除了符号输入之外),往往需要进一步处理。下面将讨论在认体系中如何进行(háng)有效且充分的感知处理(lǐ)。

    4.1视觉(vision)

    长期以来,视觉是主要的感知模态,虽然最近的研究(jiū)建议更平衡(héng)的感知体验观[17],但(dàn)认知结(jié)构的(de)研(yán)究仍(réng)然以视觉(jiào)为中心(xīn),相对也是(shì)研(yán)究最多的感(gǎn)知模态。尽管在机器人技术中,各种非视(shì)觉传感器(如(rú)声纳(nà)、超声波距离传感器)和本(běn)体感觉(jiào)传感器(如(rú)陀螺仪、圆(yuán)规)被用于解决诸如导航(háng)、避障和搜索等视(shì)觉任(rèn)务(wù),但视觉输入占所有可能输入模式的一半以上。根据Marr[18]的说法,视觉处理通常包括了三个不同(tóng)的阶段(duàn):早(zǎo)期(qī)、中(zhōng)期和晚期。早期视觉技术是数据驱动(dòng)的,涉及到对视觉场景的并行处理,提取简单的元素,如颜色、亮度、形(xíng)状、运(yùn)动等。中期视觉技术将(jiāng)元素分组到(dào)区域(yù)中,然后在后(hòu)期进行进一步处(chù)理,以识别对象,并使用可用的(de)知识赋予它(tā)们意义。尽管Marr没有(yǒu)提到,但(dàn)视觉注意机制、情感和奖励也(yě)会影响(xiǎng)视(shì)觉处理的各个阶段[19]。因此,感知和认知(zhī)在各个处理阶段都是紧密关联(lián)的。

    在认知体系中(zhōng),基于图像理解(jiě)的(de)视觉处理是分(fèn)阶段进行的【20】。这些阶段(duàn)包括:1)强度(dù)-位置-时间值(zhí)的检测和分组(zǔ)(产生边(biān)缘、区域、流向量);2)边缘、区域等的进一步分组(zǔ)(产(chǎn)生表面、体积,边界、深(shēn)度(dù)信息(xī);3)对象识别及其运动识别;4)为实(shí)体(tǐ)建立(lì)以对象为(wéi)中心的表示;5)基于(yú)任(rèn)务为(wéi)对象分配标签;6)时空推断实体之间的关系(xì)。在这(zhè)里,只有阶段1代表Marr三阶段理(lǐ)论的(de)早(zǎo)期阶段(duàn),所有后续阶段都需要一个附加的任务或世界知识。已经在第2阶段,特征(zhēng)的(de)分组可以由被观(guān)察的特定(dìng)对象的视点信(xìn)息和知识来促进。最后,后期阶(jiē)段(duàn)对(duì)从早期和中(zhōng)间处理结果中抽象出来的(de)高级表(biǎo)示(shì)进行推理和操作(zuò)。

    值得注意的是,在(zài)许多(duō)图像理解的研究中通过执行了隐式深度学(xué)习方(fāng)法而(ér)实现的。在最近几年中,我们已经看到了(le)深度学习在图(tú)像(xiàng)处理(lǐ)和自然语言处理很多卓越表(biǎo)现,然而(ér)令人惊讶的是很少认知架构使用它。在CogPrime、LIDA、SPA和BECCA中可以找到深度学习在简单视觉任(rèn)务中的(de)一些应(yīng)用。

    图(tú)5显(xiǎn)示真实视觉和(hé)模拟(nǐ)视觉执行处理的各(gè)个阶段。真实视(shì)觉系统只接收像(xiàng)素级的输(shū)入,而没有(yǒu)附(fù)加信息(如摄像(xiàng)机参数、物体的位置和特征(zhēng)等)。图(tú)像本身由(yóu)相机生成,但体系结构不需要连接到物理相(xiàng)机。模拟视觉系(xì)统通常忽略(luè)早期和中期处理(lǐ)阶段,并(bìng)以(yǐ)适合视觉处理后期阶段的形式接收输(shū)入(例如(rú)形(xíng)状和颜色(sè)的符号描述、对(duì)象标签、坐标等)。技术上,任(rèn)何不(bú)支持真实视(shì)觉或其他感知(zhī)模式的体系结构,都可以通过(guò)接口进(jìn)行扩展(zhǎn),该接口将其(qí)连(lián)接到传感器或将(jiāng)原始数据预处(chù)理为更合适的格式(如Soar、ACT-R)。但图5仅仅显示执行了什么样图(tú)像解释阶段,而(ér)没有反映出这样处理的复杂性。

    乐动网页版_乐动(中国)

    图5:这些阶段(duàn)从早期到后期依次为:1)特征,2)原型对象,3)对象(xiàng),4)对(duì)象模(mó)型,5)对象标签,6)空间关系

    不同(tóng)深浅的蓝色用(yòng)来(lái)表示属于早期、中期和晚期视觉的过程。这个具有真(zhēn)实和模拟视觉的架构分别显(xiǎn)示(shì)在左栏(lán)和(hé)右栏中。每列中的顺序按字母顺序(xù)排列。

    4.2基(jī)于传(chuán)感器的视觉(Vision using physical sensors)

    大多(duō)数体系处理视(shì)觉各个(gè)阶段(duàn)都是物理嵌入的,包括机器(qì)人控制、生物启发和(hé)仿(fǎng)生(shēng)结构。早期(qī)视觉(步骤1)通常涉及边(biān)缘检测和视差估计。然后这(zhè)些(xiē)特征分组(步骤2)为具(jù)有类(lèi)似特征(颜色、深度等(děng))的东西,这些(xiē)东西被解(jiě)析(xī)为具有质心坐标(biāo)的候选对象(步骤(zhòu)3)。使用离线方式学习对象模型(步骤4),并可用于对(duì)候选对象进行分类(步骤5)。

    基于生物启发的体(tǐ)系也使(shǐ)用计(jì)算机视觉(jiào)算法,并遵循类似的处理阶段。例如,用于目(mù)标(biāo)检测的神经网络(RCS、DIARC、Kismet),用(yòng)于对象识别的SIFT特征(DIARC),用于手部检测和跟踪的(de)SURF特征、AdaBoost学习和高斯混合(iCub),用于识别人体并确定年龄性别的Kinect和结合支持向量机的LBP特征(RoboCog和CORTEX)。

    在有(yǒu)些体系结构中,视觉与记忆(yì)、控制系统(tǒng)的联系更加(jiā)紧(jǐn)密,视觉处理中的一些步骤与人类视(shì)觉(jiào)系统有明(míng)显的相关性。其中(zhōng)一个例子是显著性【saliency?】,它根据视觉刺激的特(tè)征或与任务的相关性(xìng),对视觉刺(cì)激的优先(xiān)级进行建模(mó)。因此,显著性被用来寻找(zhǎo)场景中感兴趣的区域(Kismet、ARCADIA、DIARC、iCub、STAR)。自我球,一种在一些机器人结构中发现(xiàn)的结构,模拟了海马体在感觉信息和动作整(zhěng)合中的功能,尽管(guǎn)在(zài)生物学上不是合理的。本(běn)质上,自我球在(zài)机器人周(zhōu)围形成一个虚拟穹顶,突出的物体和事件被映射到上面(miàn)。这个概念的(de)各(gè)种实现包括(kuò)在RCS、ISAC、iCub和MACSi中。

    图2体(tǐ)系中的第三个亚组追求生物学上合理的视觉。其中一个最详(xiáng)细的例子(zǐ)是基于(yú)大脑腹侧通(tōng)路解(jiě)剖的Leabra视觉系统(LVis)。它模拟了(le)初级(jí)视(shì)觉皮(pí)层(V1)、纹状体外区(V2、V4)和下颞(niè)叶皮层(IT)。这些区域中的计算大(dà)致(zhì)对应(yīng)于早期和中期处理步骤。LVis具有人类视觉系统的其他(tā)特征,例(lì)如(rú)在更高层(céng)次上的神经元的更大(dà)的(de)感受野(yě)、层之间的相互联系以及限制跨层活(huó)动水平的反(fǎn)复抑制动力学。Darwin VIII(BBD)、SPA(Spaun)和(hé)ART的视觉系统也模(mó)仿了灵(líng)长(zhǎng)类动物的(de)腹侧视觉通路。

    SASE架构并没有(yǒu)紧密地复(fù)制(zhì)人类的视觉系(xì)统(tǒng)。相反,它使用具有(yǒu)局部连接的层次神经网络,每个神经元从前一层的(de)限制(zhì)区域(yù)获得输入(rù)。一层内的感(gǎn)受野大小相(xiàng)同,并(bìng)且在较高的水平上增加。该系统在一(yī)个室内导航场(chǎng)景中(zhōng)的帆式机器人上进(jìn)行了测试。MDB、BECCA和DAC中实现(xiàn)了类似的视(shì)觉方法。值得指(zhǐ)出(chū)的是(shì),尽管(guǎn)涌现范(fàn)式没(méi)有显式地将标(biāo)签分配给对象,但是(shì)它(tā)们能够形成(chéng)场(chǎng)景中对象之间空间关(guān)系的某(mǒu)种隐式表(biǎo)示(shì)(比(bǐ)如向量表示),并将这些表(biǎo)示用(yòng)于(yú)视觉导航等(děng)任务(BBD、BECCA、DAC、MDB、SASE)

    4.3模(mó)拟视觉(Simulated vision)

    从图2可以明显看出,大多数模拟只支持(chí)视觉处理的后(hòu)期阶(jiē)段。最简单的模(mó)拟是由物(wù)体填(tián)充的二维网格,例如ERE和PR使(shǐ)用的NASA TileWorld、GLAIR agents使用的Wumpus World、Ariadne agents使用的二维迷宫(gōng)和CLARION social agents设计的部落模拟。网格环境(jìng)中(zhōng)的代理通常只能看到有限(xiàn)的周围环境,每(měi)个方向只能看到几个单元格。Blocks world是另一个经典(diǎn)领域,其一般(bān)任务(wù)是(shì)构建各(gè)种(zhǒng)形状和颜(yán)色(sè)的块堆栈(ACT-R、ICARUS、MIDCA。

    尽(jìn)管它们的复杂性和目(mù)的不(bú)同,不同(tóng)的模拟通常提供关于环境的相同类型的(de)数据:对象(xiàng)、它们的属性(颜色、形状、标签等)、代理本(běn)身的位置和属性、对象(xiàng)和(hé)环境因素之间的空间关系(例如(rú)天气和风向)。这种模拟主要用(yòng)作可视化工具,与直接输入的数据相差不大,因(yīn)为几乎不需(xū)要任何感官处理(lǐ)。更高(gāo)级(jí)的模拟将场(chǎng)景表(biǎo)示为具有(yǒu)角点(diǎn)颜色(sè)和三维坐(zuò)标(biāo)的(de)多边形,这些角点必须(xū)进一(yī)步处理以识别对象(xiàng)(Novamente)。否则,3D模拟(nǐ)的视觉真实性主要是(shì)为了美学和感官,因为信息是直接(jiē)以(yǐ)符号形式(shì)提供的(例如CoJACK,Pogamut)。

    如前所(suǒ)述,图2并(bìng)不反(fǎn)映个体体系的环境或能力的复杂性差异。然而,在(zài)体现认知结(jié)构的环境之间的大小和真实性。例(lì)如,ATLANTIS控制的行星漫游者在户外(wài)岩石地形中进行越(yuè)野导(dǎo)航。销售(shòu)机器人Gualzru(CORTEX)在一个满是人(rén)的大房间(jiān)里移动,iCub(MACsi)从桌子(zǐ)上识别并捡(jiǎn)起各种玩具。另一方面,简单即没有障碍的环境也(yě)被用于认知结构研究(BECCA,MDB)。此外,颜色编码对象是(shì)简(jiǎn)化视(shì)觉处理的常用方法。例如(rú),ADAPT跟踪(zōng)一个红色在桌子上滚动的(de)球和DAC将(jiāng)自己朝向(xiàng)标记有(yǒu)不同(tóng)颜色的目标。此外,大多(duō)体系(xì)的应(yīng)用只能识别少数(shù)不同的对象类(lèi)别。只有Leabra能够区分几十个(gè)对象类别。随着OpenCV、Cloud Point Library或Kinect API等可(kě)用软件(jiàn)工具包(bāo)的普及,可视化处理的质量大大提高(gāo)。但(dàn)在(zài)试图建立通用的生物学意义上的视觉系统模(mó)型,并没(méi)有取得太多进展。目前,应用仅限于受控环境。

    4.4听(tīng)觉(Audition)

    听觉是认知体系中一种常见(jiàn)的模态,因(yīn)为语音命令常常是用于指导智能系统或与(yǔ)之通信(xìn)。由于听觉模态是纯功(gōng)能性(xìng)的,许(xǔ)多体系结构使用可用的语(yǔ)音到文本(běn)软件而(ér)不(bú)是开发听(tīng)觉模型。为数不多的进行了听觉感知建模的体系包括了ACT-R、SPA和EPIC。例如,ARTWORD和(hé)ARTSTREAM被用来研究音位整合和音源隔离(lí)(鸡尾酒会问题)。基于ACT-R发展了一个音乐解释模型。

    使用(yòng)专用(yòng)软件进行语音处理和通信有助于实现(xiàn)复(fù)杂性和现(xiàn)实主义。例如,在机器人(rén)应用(yòng)中,它允许销售机器(qì)人编写脚本在拥挤的房间里与(yǔ)人互动(CORTEX)或对话英语的子集(jí)(CoSy)。一个更高(gāo)级的应用包括使用语音识别来完(wán)成这个任务通过(guò)电话向公共图(tú)书馆订购(gòu)书籍(FORR)。使用现成语音的其他(tā)系统处理软件包括PolyScheme和ISAC。在选择的体系(xì)中,大部分工作都是(shì)针对自(zì)然语言处(chù)理,即语言和语音所(suǒ)承(chéng)载(zǎi)的语义信(xìn)息,很(hěn)少有人(rén)注意(yì)到据情感内容(如响度、语速和语调)。在这(zhè)个方向上的一些尝试都(dōu)是社会机器人。例如,社交机器人Kismet不明(míng)白人(rén)们在说什么,但(dàn)它可(kě)以根(gēn)据演(yǎn)讲的韵律轮廓来确定(dìng)赞同、禁止或安慰。这个Ymir体系结构还具有韵律(lǜ)分(fèn)析器和基于语法的语音(yīn)识别器,可以理(lǐ)解(jiě)100个单(dān)词的(de)有(yǒu)限(xiàn)词汇。甚至声(shēng)音本身(shēn)也可(kě)以作为线索,例如(rú),BBD机器(qì)人可(kě)以(yǐ)将(jiāng)自己定向到(dào)一个响亮的声音源(yuán)。

    4.5符号输入(rù)(Symbolic input)

    符号(hào)输入结合了几种不同于物(wù)理传感和仿真模拟的输入(rù),包括了文本(běn)命令、数据以及通过(guò)GUI的输入。文(wén)本是(shì)用于执行规划和逻辑推(tuī)理任务(wù)的典型输(shū)入形式(例如:NARS , OSCAR , MAX , Homer )。文(wén)本命令(lìng)通(tōng)常(cháng)是(shì)根据体系(xì)结构中使(shǐ)用的基元谓词编写的,因此不需要额外(wài)的解析。

    4.6 多模态感知

    在前面各节中,单独考虑了(le)各种的感知模(mó)式。然而(ér),在现实(shí)中(zhōng)人脑从不同(tóng)的感官接收到(dào)源源不断的信息流,并将其整合成一个关联的世(shì)界表征。认(rèn)知结构也是如此,因为近一半的认知结构有(yǒu)两种及以(yǐ)上不同的(de)感知模式(图(tú)1)。并非所有(yǒu)这些模(mó)式可能出现在一(yī)个单(dān)一的体系中,大多数(shù)体(tǐ)系同时使用两种不同的模式,例如视觉和听觉、视觉和符号输入或视觉和距离传(chuán)感器。除了少(shǎo)数例外,这些体系结构基本上执行了(le)认知科学中的特征集成或机器人学中(zhōng)的传感器数据融合。显然,可以使用不同的(de)传感器,而不必显式地组合它们(men)的(de)输出。

    多(duō)感知通过互(hù)补(bǔ)和冗余(yú)提高感知(zhī)的稳健性,但在实践中(zhōng),使用许(xǔ)多不同(tóng)的传(chuán)感器会带来许多挑战(zhàn),例如不完(wán)整或虚假或冲突的数据、具有(yǒu)不同属性的数据(例(lì)如维度或值范(fàn)围)、对数据对齐和关(guān)联的(de)需要等。机器(qì)人研究领域对这些实际问(wèn)题进行了深(shēn)入的(de)研究(jiū),但是还没有提出通用的解(jiě)决(jué)方(fāng)案。每个(gè)解决方案(àn)都必须为特定的应用程序定制,这是大多数认知架构采用的一种普遍做法。不(bú)幸的是,文献中很少有技术信息来确定所使用的确切(qiē)技术,并将它们与已建立的(de)分类法(fǎ)联系起来。

    总(zǒng)的来(lái)说,传(chuán)感器集成的(de)特定实现依赖于用于推理和任(rèn)务(wù)的知识(shí)表示(shì)。在典型的具(jù)有符号推理的(de)体系结构中,来(lái)自不同传感器的数据被独立地处理,并映射到以(yǐ)代理为中心的3D地图上,该地(dì)图(tú)可用于导航(CaRACAS , CoSy)。在社会机(jī)器人的应用中,世界(jiè)的表现形式可以是一个(gè)围绕着主体的(de)自我球体,它包含以自我为中心的坐(zuò)标和(hé)视觉检(jiǎn)测对象的属性,这些都(dōu)与通过(guò)三(sān)角测量确定的声(shēng)音(yīn)位置相关联(ISAC,MACsi)。

    RCS,一个具有层次结(jié)构(gòu)的模型(xíng),在每个层次上都有(yǒu)一个具有相应世界(jiè)表示的感知处理模块(例如:像素图、3D模型、状(zhuàng)态表等)。有些体系隐式地执行数据关联和对齐,即传(chuán)感器数据和(hé)特征提(tí)取(qǔ)(例如,来自摄像(xiàng)机的物体(tǐ)坐标(biāo)和(hé)来自激光的障(zhàng)碍(ài)物距离)是独(dú)立进行(háng)的(de)。然后将提取的(de)信息直接添加到工作内存。任何模棱两可和不一致都可以通过高(gāo)阶推理过程来解(jiě)决。这是分布式体系结构中的一种常见方法,其(qí)中独立模块同时(shí)为实(shí)现一个共同目标而(ér)工作(例如CERACRANIUM、Polyscheme、RoboCog、Ymir和LIDA)。

    在许多受(shòu)生物启发的体(tǐ)系(xì)中,不同传(chuán)感器的读数(shù)之间的关联被学(xué)习(xí)。例如,DAC使用Hebbian学习(xí)来建立数(shù)据对齐,以便将不同感知模式的神经表示映射到一个共(gòng)同的框架,模(mó)拟(nǐ)大(dà)脑上丘的功能。ART通过神(shén)经融合(hé)(ARTMAP网络)将视觉和超声波(bō)感官信息(xī)集成到移动(dòng)机器(qì)人导航中。同样,MDB使用神经网络从传(chuán)感器输入学习(xí)世界模型,并使用遗传(chuán)算法(fǎ)调整网络参数。

    目前为止(zhǐ)提到的所有方法都(dōu)有一些相似(sì)的传感集成,因为都使用空(kōng)间和时(shí)间的接(jiē)近或(huò)学习来消除(chú)多模态数据的歧义。但总的来说(shuō),只有很少(shǎo)的(de)体系在感知层面上追求生物逼真度。唯一的(de)一个在生物(wù)学上看似合理的感知集(jí)成模型是用基于大脑的设备(BBD)体(tǐ)系(xì),被称(chēng)为Darwin XI的具体神经(jīng)模型是用(yòng)来研究多(duō)感觉信息(来自触摸传感器、激(jī)光(guāng)、相机和磁罗盘)的整合和在迷宫导航中的海马体(tǐ)[163]。Darwin XI的(de)神(shén)经(jīng)网络由大约80000个神经(jīng)元和120万(wàn)个突触组成,并模拟(nǐ)50个(gè)神经区(qū)域。在损伤(shāng)研究中,通过去除(chú)一个或多个感觉输入并(bìng)重新映射感(gǎn)觉神经元(yuán)单元,证明(míng)了系统的(de)鲁(lǔ)棒性。

    一般(bān)来说,很多(duō)认(rèn)知体系在很大(dà)程度上忽略了跨模(mó)态(tài)交(jiāo)互作用。这些体系,包括面向生物(wù)和面向认知的,在(zài)处理不同(tóng)的感知模式时(shí)通常采用模块化(huà)的方法。同时,在过(guò)去几十年中进(jìn)行的许多心(xīn)理和神经成像实验(yàn)表明,不同的感知相互影响。例如,视(shì)觉改变(biàn)听(tīng)觉(jiào)处理,反之(zhī)亦然(rán)。然而,据我们所知,一些仿生体(tǐ)系(xì),如(rú)上文提到的BBD,可能代表跨模态效应,这个问题(tí)还有待调研。

    关键词:




    AI人工智(zhì)能网声明:

    凡(fán)资讯来源注明为其他媒体来源的信息,均为转载自其他媒体,并不代表本(běn)网站(zhàn)赞同其(qí)观点,也不代表本网站对其真实性负责。您若对该(gāi)文章内容有任(rèn)何疑问或质疑,请立即与(yǔ)网站(www.bz.xinxiang.zz.pingliang.ww38.viennacitytours.com)联系,本网站将迅速给您回应并(bìng)做处理。


    联系电话:021-31666777   新闻、技术文章投(tóu)稿QQ:3267146135   投稿邮箱:syy@gongboshi.com

    精选(xuǎn)资讯更多

    相(xiàng)关资讯更多

    热门搜索(suǒ)

    工博士人工(gōng)智(zhì)能网
    乐动网页版_乐动(中国)
    扫描(miáo)二(èr)维码关注微(wēi)信
    扫码反(fǎn)馈

    扫一扫,反馈当前页面

    咨(zī)询反馈
    扫码(mǎ)关注

    微信公(gōng)众号

    返回顶部(bù)

    乐动网页版_乐动(中国)

    乐动网页版_乐动(中国)