情感平台直播
2012年,西班牙政府面临财政危机,全面加税。一家名为Teatreneu的巴塞罗那喜剧俱乐部因此流失了三分之一的夜场观众,无奈之下只得接受麦肯广告的建议,门票免费但按照看时的笑容数收费。即使80个笑容封顶,客源还是提高了35%,收入也提升不少。
负责识别、计数笑容的设备与技术来自一家叫做Affectiva的公司,这家公司上月刚刚完成1400万美元D轮融资。 在“情感计算”(Affective Computing)这条赛道上,他们并不孤单,近几年来全球已经涌现出了几十家创业公司。而随着移动终端普及、计算性能提升,素材库不断丰富,或许这条赛道上还会涌现出更多惊艳的产品与公司。连Google的前副总裁情感平台直播、梅隆大学计算机科学学院院长Andrew Moore都表示,2016年是机器情绪识别的分水岭。
本文是情感经济系列文章的第一篇,系统梳理了国内外情绪识别领域的进展。如果你也在从事该领域的研究与创业,欢迎与我交流讨论(微信:2479422239;邮箱:)。
仅从技术的角度考虑,这并非天方夜谭、不可实现。让机器懂得人类情绪,已有多年的研究。而自1997年MIT媒体实验室的Rosalind Picard教授提出“情感计算”一词,帮助计算机识别、理解、表达和适应人的情感,赋予机器更高的、全面的智能,还成就了不少初创公司。
或许几年之后,当我们回放《Lie to Me》这部美剧时,都要吐槽“为什么还有博士要做这个,让计算机做不就好了么?”
致力于解析这些情绪,Ekman博士将他们分解成46个独立动作,汇编了一套面部动作编码系统,就是举世闻名的FACS系统。这也奠定了机器表情识别领域研究和应用的基础。Lie to me里的故事,总是扣人心弦,但真实的世界里,这种“读心术”被广泛应用,从商业到安防、医疗。不同的是,这里没有Dr. Cal Lightman,只有一台台高速运转的计算机,和一行行已经被验证过的代码。代码的提供方则是在这个领域有所积累的创业公司。
让计算机像Dr. Cal Lightman一样,通过表情识别用户的情绪,是最常用的一种实现路径。毕竟人类90%的信息是通过视觉获得。表情识别领域最知名的两家公司非Affectiva 和Emotient两家公司莫属。前者是由情感计算概念的提出者Rosalind Picard教授和她的埃及学生Ranael Kaliouby一起创办,已经完成D轮融资。后者的团队中则有Paul Ekman 博士本人坐镇,2016年年初被苹果收购。
不论是Affectiva、Emotient,还是这个领域其他有名的初创公司,诸如Realeyes、Eyeris、Nviso、Kairos, 都是建立在Ekman 博士的研究基础之上,实现逻辑基本都是捕捉并识别表情特征,常用的实现方法主要有四种:形变特征提取法(将人脸面部的一些特殊形变信息,如纹理变化或几何形变提取出来)、统计特征提取法(用统计法对人脸表情图像的特点来进行描述)、运动特征提取法(将某些特征区或特征点的运动信息,如特征区的光流变化或特征点的运动距离提取出来)、模型特征提取法(以人脸为基础上,构建二维或三维模型,通过调节模型参数的变化来匹配人脸图像当中的人脸部分确定表情)。
这一领域的研究自20世纪90年代就已开始,国外一些著名的研究机构,如麻省理工、卡内基梅隆、ATR 研究所等都异常活跃,但直到最近五六年来才开始逐渐商业化。一是因为人脸数据库的丰富及完善,二是因为市场个性化需求的不断涌现。互联网在其不可没,每天有大量的照片上传至网络,提供了可供学习、研究、训练的素材。随着智能手机的普及,拍照效果优质的摄像头更加廉价易得,几乎成了人们的标配。企业对于个性化精准运营的需求,日益强烈。
相比国外,国内研究起步要晚一些,中科院、清华等院校在20世纪90年代末开始了相关研究。人脸表情数据库也在逐渐完善和丰富,除了单一表情数据库,也出现了复杂表情数据库。近年来也出现了阅面、Facethink 、海妖等要做情绪识别的创业公司。
相比于表情,语音是人们表达情感最直接、最有效、最自然的方式,通常包括语义信息(文本)和非语义的的声学信息(语音),在学界、商业领域均有研究与应用,代表性公司AlchemyAPI(文本)、Beyond Verbal(语音)、EI Technologies(语音)也频频获得资本和大公司青睐。
声学方面,最早的语音情感研究始于20世纪80年代,当时已经有学者研究如何使用统计特征法进行情感分类了。90年代初,MIT多媒体实验室构建了一个“情感编辑器”,收集人的语音信号,结合面部表情、生理信号,识别人类情绪。直到进几年来,IEEE 推出专门的期刊,筹办专业竞赛,学界的研究才大幅增加。中文的语音情感研究指导近十年来才开始,比较资深的研究人员主要集中在清华、浙大、东南大学以及中国科学院语言研究所等。
这一领域的创业公司也要晚于表情识别出现。直到2012年,全球才出现了第一家这个领域的创业公司——Beyond Verbal。这家公司于2013年5月7月获得两笔投资,2014年9月再度获得330万美元融资。目前, 已经有161万样本,API产品可提示11个不同情绪组,包括愤怒情感平台直播、孤独感、自制、快乐和兴奋等。这个领域的其他知名公司还包括了英国EI Technologies、美国MIT 的 Cogito。
这些公司语音情感识别的实现路径也是提取特征,这些特征主要包括韵律特征、音质特征(共振峰、频谱能量分布,谐波噪声比等)、谱特征。其中,韵律特征包括基频、语速、发音持续时间等,基本能够体现说话人的大部分情感信息,是最为广泛使用的方法。近年来,也出现了将韵律特征与音质特征结合的识别方法。
在生理信号情绪识别方面,国内外已经有不少研究。这些信号主要有心电信号ECG、脑电信号EEG、皮肤电信号GSR、呼吸信号RSP、血流量脉冲信号BVP、肌电信号EMG、皮肤温度信号等。近年来,随着可穿戴设备的普及,应用也随之增加。从卖萌的日本Neocomimi猫耳朵,到知性的芬兰“情绪花瓣”Moodmetric智能手环,从服务企业的Q Sensor 腕带,到治疗相关疾病的SHORE 智能眼镜(与Google Glass结合),层出不穷。
不过,对大多数普通人来说,上面这些都还是陌生的术语。事实上,除了少数用于情绪识别的可穿戴设备以外,这个领域的应用,尤其是表情识别应用,大多服务B端客户,或帮助商业客户精准了解用户情绪情感平台直播,提升广告投放的效果;或帮助医院客户管理、治愈自闭症;或帮助政府客户进行安全监控。
情绪识别技术最早被应用于帮助自闭症患者适应社会,所以不少初创公司还有“情怀”的一面。Affectiva就是起源于一个帮助自闭症患者的项目,创业前期创始团队就与前CEO因为这一问题发生过争论,最终前CEO黯然离场。英国公司Realeyes不仅热衷于帮助自闭症患者,联手Google Glass开发应用,技术团队还表示很希望未来能做出帮助人变快乐的产品。Eyeris等公司,则在研究将情绪识别与自动驾驶技术结合,减少不必要的交通事故。
“情怀”之外,这还是一个赚钱的生意。细看Affectiva、Emotient、Realeyes、Nviso、Kairos、Sightcorp、Imotions等公司的合伙伙伴,已经包括了宝洁、联合利华、可口可乐等零售大厂。Affectiva公司更是为“根据心情推送广告”申请了专利。情绪影响消费,毋庸置疑。或许在未来,还有哪家“丧心病狂”的公司会想法设法识别并影响用户情绪,促进消费吧,就像现在基于情绪识别的自适应游戏和教育应用那样。
正因为其中巨大的潜力,大公司对情绪识别日益看中。Facebook早在2012年开始就在进行对用户的情绪试验。微软在去年底推出了牛津计划,帮助用户识别照片中的情绪,近期还在新加坡展示了名为“Magic Mirror”(魔镜)的产品,“看心情”推送新闻。IBM不仅收购了AlchemyAPI, 还与软银合作赋予Pepper 机器人 Waston的能力。在AI上进展稍慢的苹果也收购了Emotient。
这也决定了行业中大多数创业公司的商业轨迹——提升技术、做现金流、被收购。这个领域的创业公司少有拿到大额融资的,即使最知名的AffectivaD轮融资也只拿到了1400万美元,Emotient也是因为一直没有能够以合理的价格获得C轮融资,才决定接受苹果收购的。 这是因为作为技术提供商,这些公司只要拥有了客户,就差不多能拥有现金流,所以这个领域过C轮的公司寥寥无几,大部分公司基本都只融了很少的钱。此外,作为一项敏感技术的提供商,如果主动用来积累用户数据,必须也会遭受道德的质疑,几乎没有做成大平台的可能。 CBInsight 的数据也基本证明了这一点,过去三年,超过20家研AI公司被行业巨头收购,买房包括Google、Amazon、Apple、IBM、Yahoo、Facebook、Intel、Salesforce等,而收购还在加速,仅在2016年第一季度就有四次收购。
相比于国外,国内这个领域的创业都还是处于起步阶段。比如海妖在2015年发布了情绪识别的API,阅面推出了国内第一款情感认知引擎ReadFace,另一家创业公司Facethink也刚刚完成新一轮融资。但起步较晚,不仅要面临国外公司产品的竞争,还要面对诸如微软这些大玩家,或许这些公司还要更好地找到市场痛点,推出更优质的解决方案、服务甚至应用。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。