首页|行业资讯|企业名录|周边产品|数字城市|增强现实|工业仿真|解决方案|虚拟医疗|行业仿真|图形处理|军事战场
资讯首页
行业资讯 >> 专业文献>>正文
以影像辨识实现智能型导览系统
2015年12月10日    评论:    分享:
    来源:第三维度
    作者:朱益进,黄惠藩
    来源:亚洲大学资讯工程学系(台湾省台中市)

    摘要:为了使目前的导览系统能够更进一步的优化,本研究结合影像识别技术以加强导览系统对于定位目标的精确度,并以扩增实境的方式呈现导览信息。本系统首先建立影像数据库,对目标场景对象取得不同角度和距离之影像,将其分类并且以SURF方法撷取影像中具特色的特征点,将特征点信息存入数据库中。用户所输入的影像与数据库的SURF特征点进行特征比对,以此推断影像为何种场景并且同时得到新场景与数据库影像的尺度、旋转变化参数,以此参数为基准放入导览信息进入新场景影像中,以此提升导览系统在定位目标的精确度和达到类似扩增实境(大陆称:增强现实)的效果。本研究中以亚洲大学为例,对五栋主要建筑进行测试,准确度达到96%。

    1. 简介

    近年来行动装置的普遍与GPS导航系统的快速发展,导览系统几乎成了出外旅游的必备工具(张树安,2010),同时扩增实境已经在许多领域如建筑维修數位化、防灾教育、休闲娱樂等应用都展现了惊人的实用性(王国雄,2010)。但目前市面上的导览系统即使能提供许多信息,但却无法很精确的进行更详细的引导。由于大部分系统只能依靠GPS来确定位置并且提供信息,但仅仅是用户的位置是不足的。通常用户所期望得知的目标并非自身所在的位置,而是由此位置所能观察到的目标,但是只以GPS定位的导览系统只能由用户的位置提供信息,而不是用户目标的位置为基准(王涌天等,2006)。由此可能产生某些情况,例如使用者感兴趣的并非对象的整体而是某对象的某一部分,如图1所示,以亚洲大学为例,用户展兴趣的位置可能在于建筑右上方的校长室,而非整栋图书馆大楼。使用者站在相同位置所能观察的范围非常的广,如图1所示,图1a与图1b为同一地点不同角度之影像,由图可知就算是同一地点由用户观测的角度不同场景对象也会有很大的变化,如此单纯的依靠GPS定位是不足的。


(a)                     (b)
图 1 情景示意图

    影像辨识在计算机视觉的领域中一直是最具挑战性的问题之一,对象的尺度、旋转使描述更加困难。因此影像辨识的一个关键问题在于设法取得辨别力高并且独特的特征描述,和能因应影像的形变和光线条件变化。早期在描述影像时主要是利用整体影像的特征,如色彩和纹理 (Swain and Ballard, 1991;Tuceryan and Jain, 1998)。这些方法能由影像直接取出的特征并且描述整体的影像内容。此种方法虽然在计算的效率上相当优秀,但是整体影像的特征对于背景变化、遮蔽、视角与光照改变的影响非常敏感。

    因此,局部的描述影像特征在近年来越来越受到重视。不同于直接描述整体影像,局部区域描述法的概念则是从视角与尺度不变的局部区域中掘取局部影像特征。和整体影像的特征描述相比,局部特征描述在应对光照改变、影像变化与遮蔽时都能保有较高的辨识度,并且在许多计算机视觉的领域内被应用且有良好的效果,例如影像检索(Mikolajczyk and Schmid, 2001)机器人定位(Lowe and Little,2002)等。许多文献提出了不同的局部区域描述法,其中最著名的局部区域描述法为SIFT ( Lowe,1999),被证实为目前最强大且实用的算法,能够将影像资料转换成具有尺度不变性特性的特征点坐标,对旋转、尺度变化、亮度变化具备较高的不变性,以此可降低场景内可能的遮蔽、移动等噪声。而由此延伸了许多改进的方法如:PCA-SIFT(Ke and Sukthankar,2004)、GLOH(Mikolajczyk and Schmid,2005)、HOG(Dalal andTriggs,2005)、SURF(Herbert Bay,et al.,2008)。其中SURF在保有SIFT在特征描述上的不变性的基础上并且将指令周期大为缩减。

    因此,本研究以影像识别结合扩增实境的技术以取得使用者所感兴趣的导览信息,以亚洲大学为例,期望能达到用户透过行动装置镜头所看到的影像都能迅速的回馈信息。由于SURF在特征点描述上具有高度的不变性,本实验以SURF进行场景对象比对,并且以扩增实境的方式将导览信息呈现,使得系统更具直觉性的操作。

    2. 系统架构

    系统架构主要分两部份,建立影像数据库和场景对象比对。影像数据库主要用于储存场景对象数据以用来和输入的影像进行比对,因此影像数据库内只需储存影像特征点、对象参数(尺度、角度、中心点等等)、导览信息,进行特征比对时只需要提取数据库内以储存的特征即可进行比对,而不需要再次进行特征撷取,同时数据库内的特征点只保存主体对象的特征点。场景对象比对时则由数据库读取数据和输入的影像进行特征比对,流程如图2。以下针对系统流程做进一步的详细说明。


图 2 场景对象比对流程图

    2.1 建立影像数据库

    以亚洲大学为例,首先依照距离和角度等等的不同对单一场景对象进行多次拍摄,并且依照拍摄时的条件进行分类。依据本实验的结果,拍摄时依每15公尺或15∘为条件型一次拍摄,其中由于日夜光线变化差异太大,再次追加中午、夜晚两项条件。以近距离正面拍摄场景对象75%完整度为基准场景对象,如图3a,向后推算50公尺为半径内(距离每15公尺一张、角度每15∘一张)搜集场景对象的影像信息,如图3b~d。由实验所知在15公尺或15∘的距离之内对于特征点的比对保有相当的准确度,依此建立树状分类器,以亚洲大学为例,依照日夜、角度、距离建立四层树状类。将选定的影像去除背景,只留下物件主体。取得对象主体特征后,根据反馈的特征信息,计算中心位置、角度、距离等参数和特征点一并存入影像数据库内。总影像拍摄张数为970张,分别为5栋主体建筑,每栋建筑包含各种条件共192张。


(a)基准影像              (b) 15公尺15° 

(c) 30公尺30°            (d) 15公尺75°
图 3 数据库建立示意图

    2.2 场景对象特征比对

    本研究采用SURF法对场景对象与影像数据库取进行特征点撷取和描述。SURF能够将影像资料转换成具有尺度不变性特性的特征点坐标,如图4,对旋转、尺度变化、亮度变化具备较高的不变性,可降低场景内可能的遮蔽、移动等噪声。其中SURF可分为三部分:、SURF特征点撷取、SURF特征点描述、特征点匹配。


(g) 原始影像             (h) 特征点显示
图 4 影像特征示意图

    2.2.1 SURF特征点撷取

    寻找并取得SURF特征点是SURF的第一步,目的为取得主要并且明显的特征以进行后续的配对。使用Hessian矩阵进行影像中极值侦测,并且以箱式滤波(图5)近似代替二阶高斯滤波(图6)。


图 5 箱式滤波          图 6 高斯滤波

    同时以积分影像(如图 7)来加速卷积以提升指令周期,其积分影像矩形任意区域和为:

         (1)


图 7 积分影像示意图

    积分影像计算卷积的计算量不会因为W区域大小改变而有不同,计算量缩小后相对的计算速度大幅提升。以不同尺度的箱式滤波对固定的积分影像制作影像空间,在不同尺度的影像空间中用Hessian矩阵求极值,然后在3×3×3的立体邻近区域内,将本身以及前后两尺度周围26个邻近域的极大极小值都设为特征点。

    2.2.2 SURF特征点描述

    以特征点为中心,半径为6s(s为特征点所在的尺度值)的点在x、y方向的Harr小波(波长为4s),并且以特征点为中心由高斯函数进行加权,将360∘分为6等份每60∘的范围内的值相加以形成新的向量,并且以最长的向量为主要向量。于主要向量上,以特征点为中心建立边长为20s的方形矩阵,将其分为4×4的小矩阵。对每一小矩阵内分别计算(单一计算范围为5×5)相对于主向量的Harr小波并以高斯函数加权。将每个小区域内的值相加可得到一个四维向量:

      (2)

    因此,每一个特征点会拥有4×(4×4)=16维的描述向量。将向量正规画以消除光照影响。


图 8 SURF描述示意图

    2.2.3 特征点匹配

    基于指令周期和效能的考虑,采用各欧氏离函数作为相似性度量来计算特征向量的距离,从而判断两个不同的SURF特征点是否能以互相配对。首先利用KD Tree,找到与待配对点距离最小和次最小的点,然后根据最小距离与次最小距离的比率来确定待配对点与距离最小的点是否为正确的配对点。由于场景中出现特征相同但是位置不同的特征点的机率极高,这使得在特征比对时容易出现错误,并非每一个匹配成功的特征点都是正确的。因此,由Hough法(Richard and Peter,2008)进行对特征点影像投影运算,可有效降低位置不同的错误。

    2.3 汇入导览信息

    计算数据库内影像的对象参数(中心点、角度、大小)和输入影像参数的差。以此调整附加的影像信息,将其缩放、旋转并调整坐标,最终和输入的影像进行合成。

    2.4 输出结果

    根据计算数据库内影像的对象参数调整附加导览信息所显示的位置,导览信息内包含文字影像、相关连结等等,以图9a、图9b为例,包含图书馆位置、馆藏查询、续借申请等信息,以扩增实境的方式呈现,使用者点选后可直接连结各种服务。请参见实验结果。

    3. 实验结果

    科技技术的快速发展,许多数位图处理工具不断的发展,其中OpenCV(Open Source Computer Vision Library)是一种跨平台的影像算法的函式库(Gary and Adrian,2008),由Intel公司所开发,可用于制作图像处理、计算机视觉、图形识别等等相关的C语言程序设计,并且以授权在商业和研究领域上免费使用,使得OpenCV普遍的受到欢迎。因此,本研究采用OpenCV作为开发环境。本实验尚未将系统架构于行动装置,为了验证实验所使用的环境为个人计算机Aspire 5750G操作系统为Windows 7以方便及时调整实验流程。

    由于SURF对旋转、尺度变化、亮度变化具备较高的不变性,本研究使用SURF进行特征撷取和比对。

    其中SURF特征点撷取由于影像数据库内已具备场景对象的特征点,使得系统运算时间缩短了70%。而进行特征比对时,由Hough法进行对特征点影像投影运算,将准确度提升23%。图9显示所有影像SURF特征点比对平均正确率(比对正确之特征点数除以总对象特征点数)与距离变化与角度变化的关系。由图9a所知,在与数据库内的场景对象相距15公尺以上比对特征点的正确率值大幅下滑,而15公尺内则还保有30%以上的正确率,而特征点正确率高于30%以上则依然具有高辨识准确度。对角度而言(图9b)在15∘的角度偏差内可达到30%以上的特征点正确率。


(a)距离            (b)角度
图 9 SURF 特征点比对正确百分比

    由此设计树状分类器,每15公尺和15∘设定一笔数据并且与输入的场景影像比对,由此将每个场景物件的拍摄张数订为192张。对于亚洲大学的主要建筑(图书馆、信息大楼、健康大楼、管理大楼、体育馆),准确度达到96%,系统运算时间为4秒。由图10a和图10b可看出对于系统对于拍摄角度的不同达到了良好的处理结果,图10b中的位置标示随着影像的不同而改变,同时美术中心也应为拍摄角度的不同而没有显示在输出结果上,图10c则识别了建筑物正反面的不同并加入了其他导览信息。其中导览信息为黄色底色的信息代表可以直接链接各种服务,以图10a~c为例,可直接点选以进入亚洲大学图书馆的馆藏系统内,或是进行续借图书的申请和在线预约会议室的使用。图10d和图10e则可以看出在不同的距离系统依然能准确的识别场景对象的位置并且以扩增实境的方式给予相关导览信息。


(a)图书馆_正面    (b)图书馆_正面_右侧    (c)图书馆_背面

(d)信息大楼_正面_近    (e)信息大楼_正面_远    (f)管理大楼_正面
图 10 实验结果

    结论

    由于科技的快速发展,导览系统几乎成了出外旅游的必备工具,但是只依靠GPS依然不足,通常使用者所期望得知的目标并非自身所在的位置,而是由此位置所能观察到的目标,由实验可知就算是同一地点由用户观测的角度不同场景对象也会有很大的变化,使用者所需的是更精确的数据和更直觉性的判断。本研究利用影像辨识技术结合扩增实境技术将导览信息呈现,以强化导览系统的精确度和操作上的直觉性。

    本研究建立影像数据库,影像数据库内需储存场景对象的特征点、对象参数、导览信息,并且依据实验结果建立树状分类器。同时利用SURF对用户输入的影像和数据库内的特征点进行比对,并且在各个步骤设立了不同的阀值,降低了实际应用时可能产生的误判和相对速度的提升。最后将所得附加导览信息以扩增实境的方式显示,导览信息内包含文字影像、相关链接等等。实验结果中,以亚洲大学为例,成功的比对数据库中的场景,并且根据输入影像的不同,输出信息也随之改变,同时也测试了不同的影像输入皆有良好的成效。以亚洲大学为例,对于亚洲大学的主要建筑,准确度达到96%,。

    未来希望在影像数据库中加入更多的场景对象,但是这势必会增加计算量和分类的复杂度,整体系统的指令周期对于一般使者的习惯仍嫌不足,必须不断的优化算法,以使得能够有更广泛的应用。同时,某些特殊的光线角度和过度曝光等拍摄时的误差对于实验的精确性也影响很大,降低建立数据库时所需拍摄的数量也是一个很有挑战性的课题。本研究以个人计算机为实验环境,但是导览系统必须用于行动装置上才能取得最佳效果,未来将系统架构转换为以云端方式链接行动装置的模式是一个必要的研究课题。

    参考文献 

    [1] 王国雄(2010)。辅助古迹寺庙行动学习之多标记扩增实境游戏的互动模式研究。大同大学工业设计研究所硕士论文。

    [2] 王涌天,林倞,刘越,郑伟(2006)。亦真亦幻的户外增强现实系统-圆明园的數字重建。中国科学基金 第20 卷,第2期:76-80。

    [3] 林武,洪景新,张昊,李林(2009)。快速有效的视频图像序列拼接方法。计算器工程与应用:1002-8331-24-0173-03。

    [4] 张树安(2010)。3D扩增实境应用于行动导览之研究。政治大学数位内容研究所硕士论文。

    [5] 郭其纲,郑泰升(2008)。扩增实境定位技术应用于建筑与城市户外导览之研究—以「古迹导览系统」与「隐形招牌」应用为例。中华民国建筑学会「建筑学报」第66 期,145~166 页。

    [6] 彭辉,文友先,翟瑞芳,罗俊,刘善梅(2010)。结合SURF操作数和极线约束的柑橘立体图像对匹配。计算器工程与应用:1002-8331-08-0157-04。

    [7] G. Bradski and A. Kaehler. (2008). Learning OpenCV. O’Reilly Media, Inc.

    [8] H. Bay, A. Ess, T. Tuytelaars, and L. V. Gool (2008). Speeded-up robust features (SURF). Computer Vision and Image Understanding,Vol.110,No.3,pp.346—359.

    [9] K. Mikolajczyk and C. Schmid (2001). Indexing based on scale invariant interest points. 8th IEEE International Conference on Computer Vision, vol. 1, pp. 525–531.

    [10] K. Mikolajczyk and C. Schmid (2005). A performance evaluation of local descriptors. IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. 27, no. 10, pp. 1615-1630.

    [11] Lowe, David G. (1999). Object recognition from local scale-invariant features. Proceedings of the International Conference on Computer Vision.

    [12] M. Swain and D. Ballard. (1991). Color indexing.. International Journal of Computer Vision, vol. 7, no. 1,pp.11-32.

    [13]  M. Tuceryan and A. Jain (1998). Texture analysis. Handbook of Pattern Recognition and Computer Vision, 2nd Edition, World Scientific Publishing Co., pp. 207-248,

    [14] N. Dalal and B. Triggs (2005). Histograms of oriented gradients for human detection. IEEE Conference on Computer Vision and Pattern Recognition, pp. 886-893.

    [15] R. Duda and P. Hart (2008) . Use of the hough trasformtion to detect lines and curves in pictures.

    [16] Comm.ACM,Vol 15,No.1,pp.11-15.S. Se, D. Lowe and J. Little (2002). Global localization using distinctive visual features.in Proc. IEEE/RSJ

    [17] International Conference on Intelligent Robots and System, vol. 1, pp. 226–231.

    [18] Y. Ke and R. Sukthankar (2004). PCA-SIFT: a more distinctive representation for local image descriptors. IEEE Conference on Computer Vision and Pattern Recognition, vol. 2, pp. 506-513.

标签:导览增强现实扩增实境
上一篇:三维立体显示技术在医学诊疗中的应用
下一篇:虚拟现实热点技术流行路线图
网友评论:以影像辨识实现智能型导览系统
评论
留名: 验证码:
您可能还需要关注一下内容:
·幻眼科技:让AR增强现实技术融入日常生活
·幻眼-提供最先进的增强现实营销解决方案
·增强现实技术支持的幼儿教育环境研究
·首款国产增强现实眼镜 HiAR Glasses发布
·以影像辨识实现智能型导览系统
·汽车制造业是驱动AR技术发展的原动力
·中国增强现实市场专题研究报告2015
·华为专家描绘增强现实:解放思维的AR
·Magic Leap,更像一场好莱坞特效做的秀
·[视频]Magic Leap将如何重新发明游戏?
☏ 推荐产品

Ladybug5全景
商家:力方国际

ProJet®
商家:力方国际

ProJet®
商家:视科创新

Premium1.5
商家:视科创新

巴可HDX主动立体投
商家:德浩科视

巴可HDF-W26投
商家:德浩科视

巴可30000流明2
商家:德浩科视

巴可4万流明2K投影
商家:德浩科视
☞ 外设导航
☏ 企业名录
【广州】中科院广州电子技术有限公司
【北京】第二空间(北京)科技有限公司
【北京】幻维世界(北京)网络科技有限公司
【厦门】厦门惠拓动漫科技有限公司
【厦门】厦门幻眼信息科技有限公司
【深圳】深圳南方百捷文化传播有限公司
【北京】北京思源科安信息技术有限公司
【上海】上海殊未信息科技有限公司
【北京】北京赢康科技开发有限公司
【武汉】武汉科码软件有限公司
友情链接 关于本站 咨询策划 行业推广 广告服务 免责声明 网站建设 联系我们 融资计划
北京第三维度科技有限公司 版权所有 京ICP备09001338
2008-2016 Beijing The third dimension Inc. All Rights Reserved.
Tel:010-57255801 Mob:13371637112(24小时)
Email:d3dweb@163.com  QQ:496466882
扫一扫 第三维度
官方微信号