奥飞寺明敏晓晓
量子比特 | 公众号QbitAI
搜索引擎的变革信号比以往更加强烈。
首先,谷歌推出AI快照,让搜索结果不再只是“10个蓝色链接”,还加入了AI智能摘要;很快百度也将“AI搭档”嵌入到搜索引擎中,让问题可以通过对话的方式得到解答。
然而,这些仅用于外部搜索。
对于移动设备而言,“内部搜索”的需求也在同步发生变化。
相对于在外部世界搜索知识而言,内部搜索是将用户个人信息视为庞大的知识库的搜索技术。
与谷歌、百度不同的是,这个搜索引擎更像是用户的“第二大脑”,可以从拍摄的照片、下载的文件中准确地找到所需的个人信息。
但无论哪种搜索,对于智能的要求都非常高,甚至需要使用拥有数千亿个参数的大型模型来实现。
以在手机上找照片为例,以前我们可能要花10分钟翻相册,才能在几百个表情包或几千张照片中找到自己想要的(甚至找不到)。
但在搭载HarmonyOS 3.1的华为P60系列、Mate X3手机上,现在你只需要用自然语言描述你想要寻找的照片特征,系统就能高效识别并给出相关图像。
它不仅能理解整体语义,比如在画廊里输入“在山顶看日出”——
甚至可以快速获得更加详细的时间地点描述,比如打电话给小毅搜索“去年在长白山滑雪的照片”:
最重要的是,这种媲美大模型语义理解的搜索方式,可以直接在终端侧实现,不需要将数据上传到云端进行处理。
换句话说,即使手机处于飞行模式,仍然可以进行这种内部搜索。
那么,此次全新图片搜索功能到底有哪些特点?而率先在终端上部署该功能的华为又做了什么呢?
华为智能图像搜索是什么样的?
此前,手机上图片搜索主要有两种方式。
一次相当于“换皮”的文件搜索,用户不仅要准确回忆起具体的时间、拍摄地点等信息,甚至连文件名都要记住:
另一类是依靠分类AI的图像识别功能,但这种图片搜索只能通过某些场景关键词描述来缩小搜索范围,比如风景、美食、人像等。
显然,这两种方式都还停留在“信息匹配”阶段,支持的标签数量有限,一旦找不到,最终还是得回到手动翻拍照片的环节。
这是因为我们不仅习惯于使用自然语言来描述图片的内容,而且描述的内容不仅限于一个名词,还可能是动词,场景,代词等等。
为了能够“在记忆中”搜索到个人照片,AI模型不仅要理解人类语言,还要能够从人类语言中提取细粒度的标签,并将其映射到图片上。
现在,华为最新的智能图像搜索已经很好地实现了这两个功能。
除了直接搜索名词来查找图片,你还可以使用任何简短的描述性词语来描述图片。例如,如果你下拉桌面并在智能搜索中输入“跑步”,系统会自动搜索各种跑步相册中的肖像并快速给出推荐:
如果你觉得搜索结果还是太多,你可以随时添加信息标签,比如把“running”改为“running puppy”,就能立刻找到你想要的图片:
当然,你可以添加不止一两个标签,如果你愿意,还可以灵活细化描述,比如添加时间、地点、人物、语义等各种复合标签,比如“冬天前不久,我和闺蜜去了内蒙古,拍了各种美食。”
在体验了华为智能图像搜索之后,最直观的感受应该就是“AI的理解能力”和“响应速度”。
相较于传统文件搜索或AI图像识别方式,华为智能图片搜索在图片搜索功能上实现了两大“飞跃”:
虽然这听起来只是手机等移动终端搜索功能的一个小小突破,但在华为之前,没有任何终端侧厂商能够解决这个问题。
什么技术这么难以实现?
克服了哪些技术难关?
事实上,无论是大模型的语义理解能力,还是搜索引擎的响应速度,都不是计算资源极其有限的终端侧能够承受的。
因此,大多数搜索引擎和大型模型相关APP解决“上线到移动设备”的唯一途径就是将模型计算放到云端,以解决资源不足的问题。
但这不可避免地意味着数据处理必须在云端完成。
具体到技术细节,主要有三大难点:
首先,对大型多模态模型进行压缩,并保证准确率。这不能简单地通过剪枝或者量化等手段,直接将模型大小压缩几倍来实现。毕竟对于端侧来说,在计算能力有限的情况下,模型大小是无法保证的。可部署的模型往往只有大型模型大小的几十分之一。
其次,搜索所需的功耗会随着数据量的增加而增加。对于端侧搜索引擎来说,面对不断更新的照片、文件等数据,只能重写索引,这必然会导致大量的新的计算费用。
第三,模型更新面临的云端协调问题。虽然AI模型最终部署在端侧,但模型效果迭代、更新、训练还是要在云端进行,最终发送到云端。设备端,这必然要求厂商同时具备云端和云端化的技术。
因此,对于数据隐私极为敏感的内部搜索来说,这两类技术在端侧部署难度非常大。之前的“折中”方式是将图像分类AI等“小模型”部署在端侧。端实现简单的智能图片搜索。
那么,华为是如何解决这些难点,同时最大程度保留大模型“理解人语”的效果和搜索响应速度的呢?
简单来说,华为无论在AI模型还是搜索引擎方面,都开发了自己的技术。
一方面,华为专门针对终端侧开发了轻量级的多模态语义理解模型,可以在不损失准确率的情况下,将大模型的体积缩小几十倍。
首先利用多模态语义表示模型,将不同模态的输入转化为语义向量,然后利用多模态语义对齐算法模型,将文本和图片的语义信息对齐,结合华为内部海量高质量数据,提高召回率。
然后依托轻量级部署技术,在端侧实现高精度检索,同时保证数据保持在本地,提高隐私和安全保障。
另一方面,华为通过索引切分、正则压缩合并等技术,成功将搜索引擎“塞”进移动端。
搜索引擎部署到端侧的核心难点在于云端的离线索引构建方式无法在端侧实现。
针对该问题,华为首先采用索引切分的方式,减少单次写磁盘的时间,并通过定期的压缩合并等方式,释放删除数据所占用的内存/磁盘资源,减少所需的存储空间。
随后,通过定义索引格式,将位置、时间等信息作为索引的一部分,我们可以快速筛选搜索条件,返回与查询语句最相关的结果,与传统的基于索引的查询相比,可以提高十倍以上的效率。数据库搜索。
几乎不需要计算时间
然而,华为花费如此巨大的技术资源,在手机终端上实现一个看似很小的“图像搜索”功能,其目的究竟是什么呢?
为什么需要智能图像搜索?
直接的原因当然是手机用户——也就是你和我——确实需要这个功能。
谁没有经历过这样的情况:为了找到一张照片,他们必须变成福尔摩斯并进行细致的分析?
“我上次看到这张照片是什么时候?”,“它是什么时候保存的?”,“那天我还拍了什么?”……
但即使你想了这些问题,你最终也不一定能找到那幅图。
尤其是随着人们手机内存中的照片数量越来越多,类型也越来越复杂——不仅有记录生活的照片,还有上课拍的PPT、网上保存的旅游指南等堆积在相册里,手动查找变得更加困难并且更加困难。
手机系统制造商早就注意到了这一点。
相册自动分类、通过标签搜索、OCR搜索照片文字等功能已经逐渐出现在大家的手机中。
但这些功能相对不够灵活,实际效果也有限,大多数时候都只是躺在手机背面积满灰尘。
因此让图片搜索功能更加智能是用户侧的现实需求,这也直接推动了华为推出智能图片搜索功能。
深层次的原因有内因,也有外因。
外部因素来自于行业,搜索拥抱AI是大势所趋。
通过对各类行业数据的初步验证,我们可以让搜索更加智能、高效,满足用户当前的需求,推动行业向前发展。
但目前互联网的覆盖面都是内容搜索,日常生活中还有另一大搜索场景——端侧搜索,也需要智能化升级。
尤其是随着用户在手机/电脑上、个人账户中存储的文件、图片、音频等越来越多,个人信息搜索次数增多,这种升级变得更加迫切。
例如微软在改造Bing的同时,还推出了Windows Copilot,一举取代了原来的“Cortana”。虽然它们定位为AI助手,但也覆盖了端侧搜索的应用场景。两者最大的区别在于二是Windows Copilot引入了更强大的AI能力,更加智能。
总之,无论对内还是对外,搜索应该接入更强大的AI,朝着更智能、更高效、更便捷的方向发展已经成为行业共识。
更深层次的内因来自于华为自身。
智能图像搜索实际上是华为智能搜索战略和蓝图的一部分推出的。
所谓智能搜索,具体来说就是一站式聚合入口,通过下拉手机桌面,可以一步到位、最快捷地直达本地各类应用和资讯内容,还支持全场景跨应用、跨平台、跨平台、跨平台、跨平台。端機搜尋。
它的定位是进行“我的”搜索。
搜索范围包括用户手机上的各类信息和功能,如图片、文件、APP等;搜索的目标是智能识别用户的需求,让用户实现更快捷、更便捷的操作在“我的”区域内。
智慧搜索的策略是实现“本地搜索+生态搜索+全场景搜索”。
当这三者连接起来时,所有“我的”搜索都可以被覆盖。
首先本地搜索指的是本地应用搜索、图片搜索、文件搜索(包括云文件)、设置项搜索、备忘录搜索等。
例如在最新升级版本中,智能搜索下拉功能可以让你搜索华为云空间中的云盘文件,只需要输入文件名关键字即可开始搜索,包括存储在云盘中的本地文件、微信/QQ等保存的文件
上面提到的智能图像搜索也属于这一类。
此外,还可以智能搜索备忘录,比如购物清单、密码账单、好友生日等零碎信息,如果在记录时没有对内容进行分类,以后再查看之前记录的文档就会很麻烦现在智能搜索可以帮助人们省去这个步骤。
第二是生态内容搜索,包括搜索服务和网页内容、旅游、本地生活、音乐视频、购物等。
特别是在购物方面,它能够聚合全网优质商品,提供与“我”相关的购物服务。
第三个是全场景搜索,也就是跨设备的搜索。
HarmonyOS打破了手机、电脑、平板等设备之间的壁垒,形成“超级终端”。
使用同一账号登录时,用户可以在PC上点击华为电脑桌面任务栏控制中心的搜索图标,或者使用快捷键Ctrl+Alt+Q,快速搜索手机或平板中的文件,包括文档、应用、图片、视频等,并支持选择不同类型的文件进行快速预览。
通过融合“软硬芯云一体化”技术,在端预装AI模型,确保跨端搜索无延迟。
总之,无论从最基层的用户层面,还是行业层面,还是华为自身,都在推动操作系统进一步升级端侧搜索体验。
由此,就不难理解华为为何推出智能找图功能了。
尤其是现在,手机操作系统经过十多年的发展,无论从功能、内容、生态都已经比较完善,接下来的升级迭代肯定会朝着更细微的方面发展。
这些小的升级和改变,比较细微,常常会让人用久了之后感叹:真好闻。
如果从更宏观的角度去看待,这些细微功能的升级和改变,也能将人机交互体验“推向”一个新的层次和高度。
从华为的动作我们可以看到,他们选择了端侧搜索作为切入点之一,带来了由点到面的改变。
智能图像搜索的出现更像是一个“序幕”,背后蕴藏着华为对智能搜索、手机系统乃至人机交互的无限想象。
AI升级端侧,从搜索开始
不仅仅是华为。
一方面,从AI技术应用场景来看,本地搜索,乃至“图像搜索”这样的具体功能,可能是AI技术在移动端应用最容易被忽视、也是最重要的方式之一。
最新一波人工智能正在迅速改变搜索引擎的交互方式。
正如开篇提到的,Google和百度都已经加入到搜索引擎革命中,改变了云端的搜索方式,核心就是让搜索引擎拥有自然语言理解能力,更好地识别和理解用户意图。
但这并不意味着只有基于云的搜索引擎会进行迭代。
在客户端用自然语言搜索“内部数据”,就像在云端用自然语言提问一样,早已是用户的隐秘需求之一。随着计算硬件的迭代和算法的优化,在云端使用 AI 进行搜索已经成为一种趋势。移动终端提升用户体验必将成为新的趋势。
另一方面,从人机交互的角度看,这种内部搜索不会局限于单一设备,而必然会在多个终端上互联互通,形成以“人”为核心的生态系统,最终完成全局智能检索。
如今,人类对于移动计算平台的想象已经从PC、手机逐渐延伸至VR、AR、智能汽车等新终端。
在这些新的移动计算平台上,交互的形式不再局限于屏幕,而是变成了更加自然的语言和手势交互。
最终在“万物互联”的前提下,实现多终端信息的互联互通。
总之,无论从AI应用还是人机交互趋势来看,搜索都是移动设备上必不可少的体验提升功能之一。
无论技术趋势如何,华为已经准备好从移动端提升用户体验。
-超过-