多模态搜索：文本、图像、音频与视频的融合

多模态搜索让用户可以在一次查询中混合使用文本、图像、音频与视频。它正在改变内容被发现与排序的方式。

2026-06-19

·

1 分钟阅读

多模态搜索

多模态搜索让用户可以在一次查询中混合使用文本、图像、音频与视频。你不必输入「像这样的红色运动鞋」，你可以在一张照片中圈出一双，添加「但要在 100 美元以下」，再用语音提问。模型会看到图像、听到问题、读出文字，然后回答。

到 2026 年，多模态已成默认。纯文本搜索正在变成例外。

多模态改变了什么

查询不再只是文本，而是多种模态的混合
结果不再只是列表，常常是综合的答案
E-E-A-T 适用于所有媒体，而非仅文本
Alt 文本与图像元数据成为一等 SEO 公民
语音与视频内容变得可索引、可引用、可排名

如何针对多模态优化

文本。 与以往一样——清晰结构、结构化数据、强段落
图像。 描述性文件名、描述性 alt 文本、描述性标题，以及结构化数据（ImageObject）
视频。 字幕、章节、用 Clip / SeekToAction schema 标记关键时刻
音频。 字幕（让模型可读）、带实体标记的 shownotes、清晰的章节标记
跨所有媒体。 一致的实体 SEO 与品牌提及