电视等终端家电产品的AI化如何发展?在这些产品与研发背后,有哪些底层逻辑值得探索?未来家电领域的AI化又将走向何处?
带着这些问题,对话了酷开科技AI产品经理卢银奇和语音算法架构师张起凡。
谈及语音交互功能设计的初衷,在卢银奇看来,其中一个因素,是以大屏为入口具有天然优势,用户通过电视直接进行交互,可以进一步缩短用户行为路径。“我们是从用户需求出发,然后想着怎么在电视上更好帮用户把需求做好。”
在张起凡看来,在AI交互能力研发过程中,最大的这个难点和痛点在于从交互到实际落地的“最后一公里”,而这里面最核心的问题就是大模型本身的不可控性。
张起凡认为,AI交互在终端产品的应用是综合能力到产品蜕变的过程,而在大模型火热背景之下,想象力是从业者应该去思考的很重要的方向。“如果说思维发散不出来的话,我们大多数人对于大模型的理解也就只能停留在对话或者是生成这样的维度上,而不会给我们自己领域内的用户带来一些很夸张、很新奇的体验。”
谈及外界认为此轮AI电视变革是“噱头大于实质”时,卢银奇表示,AI发展是一个过程,市场在关注度冷却后还会不断发展,等待拐点来临。
谈及未来,卢银奇表示,未来不仅是家电行业,所有行业的发展都将导向“数据”。基于用户数据,企业可以进一步推出服务,更好去感知用户在使用AI过程中的一些变化。
谈酷开科技AI能力的设计逻辑
从用户需求出发
:经过线下走访了几个品牌的门店,根据我的观察来看,在走访的样本中似乎只有创维电视做到了公众认知的“交互”能力,比如可以写作文等等,而不仅仅是“智能音箱”式的语音控制。请问是什么时候、基于一个什么样的考虑,想做这种类型的交互?
卢银奇:我们这两年一直往大模型方面发展,竞品基于一些简单问答是语音最基础的功能,我们在研发过程中来自用户反馈,发现用户在语音功能使用时更多会用语音来搜索内容,我们就想如何让用户语音搜索变得更好。所以,我们需要把语音能力进行升级,第一就涉及到“怎么去识别用户的意图”;第二就是如何把用户搜索出来的东西以用户想要的方式展现出来。
再往后,我们发现用户可能更多喜欢和电视有一些聊天、简单问答。因为电视是一个大屏入口,如果说用户通过电视可以进行直接沟通,那相对来说就不需要单独打开手机进行搜索。基于此,我们就把大模型相关能力做了一些加成,这样问答会更加智能化,会更加符合用户需要。
我举一个简单例子,比如用户只是简简单问了一句“我想在周末出去玩”,我们可以识别到用户当前所在地,比如用户在深圳,那他在深圳有什么是适合周末玩;(系统)再查询周末两天的天气情况,系统就可以对此做一个很好的规划,这相比于传统文字模型来说更好一点。另外,酷开系统的大模型也帮助用户省略了用手机打开旅游网站、查询相关地点路线的过程。
简单来说,我们是从用户需求出发,然后想着怎么在电视上更好帮用户把需求做好。
:但其实市场很多友商并未做这类型的功能,您认为他们是基于什么考虑?
卢银奇:我这边了解到,其实大家现在都在做,但是现在大家真正做出来的不多。感觉这其实是赛跑,可能我们先跑出来了,然后我了解的像其他的一些友商可能也会把AI作为宣传亮点,但他们可能更多是放在一些其他功能上面,比如说AI绘画等。但语音交互为什么没有成功落地,我不确定,可能和每个公司战略方向有关。
:从战略方向来看,酷开系统在产品联动方面可能会更需要“语音交互”?
卢银奇:简单说,我们的AI除了提到的语音交互外,还有很多能力,比如AI绘画。我的工作除了挖掘更多产品AI能力,另外就是如何让AI能力和更多产品联动,比如说现在正在与投影仪、学习机、闺蜜机等产品进行联动。以学习机为例,学习机需要AI绘画克隆父母音色给小朋友讲故事的能力,那我就可以和它做联动;再比如投影仪,我们区分成人和儿童投影仪,涉及到儿童教育方面的内容,比如和知名动漫角色合作,用角色的音色、口头禅来与儿童进行教育互动。
:2024年的新款电视都是搭载了哪些 AI 相关功能呢?
卢银奇:简单说,我们是把AI功能做了强化,像影视、音乐、讲绘本等我们也做了很多功能层面的升级。我们还使用了一些动模态的方式去识别用户当前的一些情绪等,比如说用户在电视上面频繁操作,此时会被认为没有明确观看电视需求,可能用户此时感到有些无聊,那AI会使用聊天方式引导他,看用户是否有其他需求,通过这种方式能更加了解用户,也会有更多情感化陪伴。
我们还做了一些其他的功能,如果电视想要被语音控制,就需要把相关指令放到语音里面,那就涉及到一个问题,很多第三方的应用要去控制它里面的东西,就需要去跟第三方做对接,这一块流程就会很长。
我们现在把技术做了一些革新,可以直接通过语音对第三方软件的内容进行交互,这是用到了语音上面的一些技术,对于当前场景的分析,通过这样的方式让用户可以没有障碍的用语音操控所有的软件。
:因为彼此可能存在协议不同产生的隔阂,酷开系统的AI把它打通了?比如唤醒APP的功能?
卢银奇:不仅仅是唤醒,比如一款APP,进去之后它里面会有一些标签和内容。正常来说,用户要想用语音控制这些内容需要和第三方软件做对接,而我们是把它的画面做了分析,结合图片分析和文字OCR分析,就直接跳过了和对方的对接,直接实现了语音交互能力。
还有一些其他的形式,比如我想看刘德华的电影,电视上会展示刘德华的海报,然后里面与刘德华相关的电影,我们都会把他的封面切换成刘德华,这样的搜索结果不是固定的,而是根据它的结果会有一些个性化变化。
对于内容交互,我们还做了很多特色化功能。比如说一句话生成一张图,其实并不只是文生图的能力,而是可以把它保存为壁纸,相当于在电视上创作出了一个属于自己的作品。用AI创作故事的能力,可以创作出一个多页呈现的童话故事等。
:故事的版本能改吗?比如说我不满意这个版本想让AI换一个?
卢银奇:我们目前没有限制用户的创作,他可以按照他的需求去定制,我们会把用户创作的内容保存在本地,用户可以去分享,如果不喜欢可以删掉、继续创作用户想要的内容。另外可以定制音色,把讲故事的声音替换成父母的声音,相当于父母在给小孩讲故事。
:音色克隆是会有开源或者互通的一些东西吗?
卢银奇:我个人的看法一直是这样:AI的能力它有很多是开源的,大家都可以用。
我们能够做的第一是把它接进来之后如何与自己的内容进行关联,因为还需要对相关功能再训练,并不是说拿来就可以用;另外,在产品能力上去如何去对它进行包装,比如音色克隆功能,功能本身在电视场景里没有什么用处,但是当我把它和讲故事场景结合,讲故事一下子有了温度。
谈AI交互的难点与痛点
大模型不可控性、最后一公里与想象力
:您觉得在做交互能力的过程中,它最大的这个难点和痛点在哪里?
张起凡:我觉得目前大模型的交互到实际落地应用这个过程其实就是“最后一公里”,它的难点和痛点都出在这个过程当中。而这里面最核心的一些问题就是大模型本身的不可控性。
大模型我们知道目前就是它的交互、对话能力是很强的,也就是理解和生成能力很强。它又非常的不稳定,就是它会变,它有“幻觉”。这种问题就是大模型相关的一些能力在实际落地应用的时候,工程上一定要去解决的问题,也是我们整个实施链路过程当中最头痛的一个地方,因为它是不可控的。它不像我们之前做任何一个产品,都是可以通过一些代码,或者通过一些功能上的设计去控制,大模型它就不具备可控的这种能力。
目前在算法层面,我们其实也很难去解决这种问题。这个里面最核心要去克服的困难,就是怎么样通过把算法本身的能力和工程的能力做一个有效的、完美的结合。然后去共同去解决、尽最大可能去削弱大模型的幻觉,去增加场景或者应用的落地的稳定性,这就是我们核心要解决的问题。
:您刚刚提到了一个结合,既要交互能力,又要保证安全,酷开系统如何去平衡这两者?
张起凡:第一个就是架构层面的设计上是需要去考量的。另外,收集大量的用户反馈数据也是非常重要的。其实在大模型研发和落地的过程当中,我们很难看到所有的case,那就需要在不断的迭代和演进的过程当中,我们可能会找大量的用户来进行内测,然后会根据他们的一些问题再做一些工程上算法层面的优化和迭代,这个过程不是一蹴而就的,它是一个需要逐步迭代的过程,慢慢就能够去满足我们最终落地的实际要求。
:大模型的badcase有了反馈,然后再去把这个漏洞给堵上。
张起凡:对。也是我们怎么去构建自动化的反馈链路,因为我们不可能一直持续人工方面去输出。我们其实是更需要去构建一种自动化收集问题的一个链路,然后根据这个链路上怎么样去自动化的去迭代和优化我们整个过程。
:我觉得像是电视等终端产品,它的用户群体和文心一言、ChatGPT等基础大模型的用户群体存在一些差异,如果大模型要落地到家电等终端产品上,大模型独特的难点和痛点在哪里?
张起凡:文心一言、ChatGPT在我的认知里面它更多是一种能力,我不认为它已经可以被称之为一个产品,或者是真正能够实际落地应用的。因为它这种能力更多呈现的是一种理解和深层的能力,这种能力怎么样去和各行各业结合,其实就是所谓的大模型到实际落地应用的“最后一公里”,就是我们这样的企业需要去考虑的问题。
如果只是使用这样的能力,大家对它们的认知更多还是对话,这种对话、理解的能力应用到各行各业,它可能呈现出来的展示形态是不一样的,其实就是产品化的过程。比如说,我们现在有文生图的能力、生成绘本的能力,其实背后都是底层大模型的能力,但是它可能结合了更多的一些其他能力,比如生成文本以及生成图像的大模型,或者是其他已经比较成熟的能力,比如计算机视觉或者自然源处理相关的一些基础能力,它是糅杂在一起的一个综合能力到产品的一个蜕变的过程。
在我的理解里,安全当然是一个很重要的话题,大模型生成的这种幻觉不可控性,在用户体验上,肯定要保证用户的一些基本诉求,除此之外,我觉得在大模型这么火热的背景之下,我们更多的是想象力的问题,就是怎么去发散自己的想象力,怎么样去把大模型和我们自己的一些场景能够结合起来。
我觉得它不是问题,它是我们需要思考的一个很重要的方向。因为如果说思维发散不出来的话,我们大多数人对于大模型的理解也就只能停留在对话或者是生成这样的维度上,而不会给我们自己领域内的用户带来一些很夸张、很新奇的体验。
:酷开系统在大模型交互领域的核心技术点在哪里?
张起凡:我觉得我们整个链路上相对于之前——因为语音并不是新的能力——我们现在加载了一些大模型能力之后,电视产品的交互能力变成了新的框架,它的架构和之前相比已经不太一样了。之前,它更多是使用传统一些的自然源处理手段理解用户的意图,然后去执行一些对应的操作;现在加持了大模型之后,大模型本身的理解能力更强,也有更强的生存能力。
而这些能力在整个架构里就是我们需要考量的一些核心:这些核心能力如何嵌入到整个流程框架里面?这个框架本身我觉得就是我们的一个技术核心点。
至于说大模型本身,比如文心一言、ChatGPT等基础模型,我们是不会对基模本身做更多的操作。对于基模,我们更多的只是应用,但是某个链路上我们可能会做一些其他的改造,比如说生成方面,我们也有自己开源的一些模型,我们自己可以去训练、优化,但是我们只是通过一些其他手段去优化最终呈现的效果,但是我们不会去优化模型本身的一些很基础的参数,因为这不是我们能力范围之内的事情。
谈电视AI化噱头大于实质
这是一个历史的循环
:目前在电视市场上,有很多业内人士都觉得电视去搭载这大模型是一个噱头大于实质的问题,您怎么去看这种观点?
卢银奇:我觉得这是一个思维定式,因为当一个新技术刚出来的时候,很多人可能更多把这个技术往自己的产品上靠,需要(借助这些)去提升产品卖点,在这样的情况下,很多人就会忘掉它的初衷是什么。
因为能够在市面上去发出声音的更多是市场和营销,营造出一种产品在最前沿的感觉,导致大众也有这种感觉,包括你可能去相关展台看过,大家都说自己有AI方面的加持,但是体验下来感觉也差不多。
所以,如果用历史的角度来看,它其实是一个过程。一开始肯定像现在这样先声夺人;然后等到大家对它的关注度冷静下来,开始思考到底如何结合,它又会往下一个层次去发展,大家推出自己的应用;再往下发展,就开始去“卷”各自的应用和区别。
所以它是一个历史的循环,而我们第一个阶段已经开始过去,现在大家已经开始冷静,外界大概知道它到底是什么,接下来就是怎么和我们的产品结合,现在我们在拐点,可能稍微往前多走了一步。
谈电视AI未来:基于数据推出更好服务
:好像很多行业都是像您刚刚提到的那样,这种“阶段论”也给我们提供了一个新视角。那您觉得未来电视或者整个家电行业的AI化发展会朝向哪个方向?
卢银奇:我个人看法是,不仅是家电行业,所有行业往后发展都是“数据”,这是每家企业自己的东西。从技术层面来讲,除了专精于大模型的企业如阿里百度等,其他企业的AI能力相差不大。此时,每家企业各自的特色是用户数据,基于用户数据,企业如何去推出更好服务,如何更好做关联,是后续的发展方向。
:“基于服务推出更好地服务”,是指未来在场景方面会有新发展吗?
卢银奇:我觉得不是场景,因为场景其实是有点悖论的。因为每家企业的差异是用户数据,企业需要去推出更符合用户需求的应用,但是如果这个应用表现效果会很好,会被其他友商借鉴、模仿,也会对此做一些改动。
你刚提到的“场景化”确实是它的一个外在的表现,它的核心是企业对于用户行为的理解,这也就涉及到我刚刚我同事说的,我们可能需要通过一些智能化的方式,能够更好的去感知到用户在使用AI过程中的一些变化,通过用户的变化推出更适合用户的应用。
:未来酷开系统的AI化会在哪些方面继续发力?
卢银奇:第一是我们接入了其他大模型的一些基础能力,如何把这一能力和内容生态做关联,比如通过AI方式和我们的产品做结合;第二是我们会在整个过程中去观察用户行为获取他在这些场景中使用的路线,进一步优化,更符合大部分用户需求;第三是产品联动,除了创维的产品联动,我们现在也做IoT,通过协议和第三方硬件做对接。在这样的情况下,AI不单纯是语音,它的能力会越来越强。现在我们也在做客服相关功能,通过这样的方式和创维旗下产品赋能,更好去关联应用。
:您觉得酷开系统在AI方面,目前来说还有哪些可以再继续优化的方面?
卢银奇:前面提到的AI能力,比如AI绘画等,我现在对它定义只是初级阶段,它里面有很多东西是可以优化的,比如AI绘本上面的风格,仔细看会发现它是类似于日式动漫画风,这种很受年轻人喜爱,后续我们可能会针对用户喜好,增加不同风格,适配不同年龄段。不同年龄段讲故事的能力也不同,我们也可以针对这些更精准生成故事;此外还可以接入更多能力炒股平台杠杆,比如AI创作歌曲等——简单来说,很多AI功能我们现在是刚开始走出,可以进一步深挖。