2026.03.25 コラム
情報検索(IR)の進化:語句一致からマルチモーダルへ
これまで見てきたように、消費者の検索行動は、単語を並べる検索から、自然な文章で問いかける検索へと移行しています。では、膨大なデータの中から、検索エンジンや生成AIは、実際にどのような仕組みで商品や情報を見つけ出しているのでしょうか。
AIは魔法の箱ではありません。その中核には、Information Retrieval(情報検索)と呼ばれる技術分野があり、長年にわたって段階的な進化を重ねてきました。生成AIに自社の商品やコンテンツが引用・活用されるためには、情報が「どのように検索され、取得されているか」という前提構造を理解することが重要になります。
ここからは、検索が「単純な語句の一致」から「意味や文脈の理解」へと進化してきた流れを見ていきます。
■連載記事
初期段階:レキシカル検索(Lexical Retrieval)とBM25
約20年前まで、検索の主流はレキシカル検索でした。これは文字列ベースの検索で、基本的には「単語を数える」仕組みです。
たとえばユーザーが「西陣織 絹 着物」と検索した場合、検索エンジンはその単語がページ内にどれだけ頻繁に出現しているかを評価します。
このときに使われていた代表的な手法がBM25です。BM25は、Term Frequency(単語の出現頻度)と Inverse Document Frequency(どれだけ珍しい単語か)を組み合わせて、検索語とページの関連性を算出します。
つまり、特定の単語が多く出現し、かつ他のページではあまり使われていないほど、そのページは関連性が高いと判断されていました。
レキシカル検索の限界
この方式には明確な弱点がありました。
たとえばユーザーが「暖かい 冬用 コート」と検索しているのに、商品ページでは「保温性の高い パーカー」という表現しか使っていない場合、検索エンジンは両者を同じ意味だと理解できません。
内容が一致していても、検索結果に表示されないという問題が頻繁に発生していました。
転換点:埋め込み表現(Embeddings)
この同義語の問題を解決するために登場したのが、Embeddings(埋め込み表現)です。
埋め込みとは、単語や文章を連続的な数値ベクトルとして表現し、意味の近さを距離として扱う方法です。
2013年に公開されたWord2Vecの登場を皮切りに、単語は孤立した文字列ではなく、意味空間上の点として扱われるようになりました。この空間では、「暖かい」と「保温性が高い」といった表現は、近い位置に配置されます。
重要なのは、これが人手で定義されたルールではなく、データから自動的に学習された結果だという点です。
ここから、Semantic Search(意味検索)が本格的に始まりました。
文脈理解の進化とTransformer
次の大きな進化は、2017年に登場したTransformerというモデルアーキテクチャです。
それ以前のモデルは、文章を左から右へ順番に処理していました。そのため、文の後半にある単語が前半の意味をどのように補足しているかを十分に捉えられませんでした。
Transformerは、文全体を同時に処理し、単語同士の関係性をまとめて評価します。
この仕組みはSelf-Attention(自己注意機構)と呼ばれ、文脈全体を踏まえた理解を可能にしました。
すべてを埋め込むという発想
埋め込みの対象は、単語や文章だけではありません。
検索エンジンは、ウェブサイト、著者、エンティティ、ユーザーといった、検索に関わるあらゆる要素を高次元ベクトルとして表現するようになりました。
これにより、これまで見えなかった関係性まで、距離として測定できるようになります。
ウェブサイト埋め込み(Website Embeddings)
検索エンジンは、ドメイン単位で埋め込みを作成し、サイト全体のトピック特性を把握します。
たとえば、日本の伝統陶芸について継続的に詳しい情報を発信しているサイトは、その分野に密なセマンティックな位置を占めるようになります。
その結果、個別ページに検索語が完全一致していなくても、関連性の高い候補として取得される可能性が高まります。
著者埋め込み(Author Embeddings)
著者の経験や専門性も、ベクトルとして表現されます。
特定分野で一貫した発信を行っている著者は、その分野に強い埋め込みを持つようになり、関連する検索やプロンプトに対して信頼性が高い情報源として評価されます。
エンティティ埋め込み(Entity Embeddings)
あらゆる「もの」は、Google Knowledge Graph 上でエンティティとして埋め込みを持ちます。
エッフェル塔から特定ブランドの抹茶まで、こうしたエンティティ埋め込みは多言語かつマルチモーダルに構築されています。
そのため、日本語で「鉄の塔」と検索しても、エッフェル塔について書かれた英語の記事が取得されることがあります。
EC事業者にとって重要なのは、Schema Markup(構造化データ)が、自社の商品をこうした権威あるグローバルエンティティと結びつける「橋」になるという点です。
ユーザー埋め込み(User Embeddings)
ユーザー自身も、過去の検索履歴や行動をもとにベクトル化されます。
同じ検索語であっても、ユーザーの関心や文脈によって、取得される情報は変わります。
現在の中核技術:BERT と GPT
Transformerを基盤として、現在の検索と生成AIを支えている代表的なモデルがあります。
BERT(Bidirectional Encoder Representations from Transformers)
BERTは、検索エンジンが検索語の文脈を理解するためのモデルです。単語を前後両方向から捉え、ユーザーの意図をより正確に解釈します。
GPT(Generative Pre-trained Transformer)
GPTは、同じTransformerを基盤としながら、文章を生成する役割を担います。取得された情報を統合したうえで、ユーザー向けの自然な回答として再構成します。
簡潔に言えば、BERTは「見つけるための理解」を、GPTは「伝えるための生成」を担当しています。
マルチモーダル進化とMUM
さらに進化したモデルとして、MUM(Multitask Unified Model)があります。
MUMはテキストだけでなく、画像や複数言語を同時に扱えるマルチモーダルモデルです。
たとえば、手作りの陶器の写真を見るだけで、その質感や用途、背景まで理解できるようになります。
また、英語の質問に対して、日本語で書かれた専門的な記事の内容が回答として統合されることもあります。
取得から生成的統合へ
現在の検索は、単に情報を取得して並べるだけではありません。
関連性の高い情報を取得する
不要な情報を除外する
残った情報を統合し、回答として生成する
この一連の流れは、Generative Synthesis(生成的統合)と呼ばれます。
ニューラル情報検索の時代
MUMによって、言語やメディア形式の壁は大きく下がりました。
75以上の言語で学習されたモデルにより、日本の事業者が発信した情報が、海外ユーザー向けの回答として生成されることもあります。
このNeural IRの時代では、埋め込みが取得、ランキング、パーソナライズ、生成のすべてを支える基盤となっています。
文字列の一致ではなく、意味の整合性が検索結果を左右する時代に入っています。
次回予告
次回は、ユーザーが検索を行った瞬間から、結果が表示されるまでの間に、検索エンジン内部で何が起きているのかを見ていきます。
著者:プロフィール
Pavel Zaslavsky(パベル・ザスラフスキー)
イスラエル工科大学(Technion)MBAプログラムにて、eコマースおよびデジタルリテール分野を教える講師。 20年以上にわたり、ECプラットフォーム、商品検索、商品カタログ管理、コンテンツ最適化といった領域において、実務と研究の双方に携わってきた。現在は、日本とイスラエルの共同スタートアップであるLISUTO株式会社のイスラエル拠点責任者(General Manager)としても、EC事業者向けコンテンツAIソリューションの企画・開発・グローバル展開を統括している。これまでにeBayにてグローバルカタログオペレーションの創設者兼責任者を務め、世界各国のマーケットプレイスを横断する商品データ基盤を構築。 また、Shopping.com(eBayグループ)では、ヨーロッパ全域のカタログオペレーションを立ち上げ、運用モデルを確立した。その後も複数の大手EC多国籍企業においてアドバイザーとして参画し、商品データ設計、検索品質改善、業務オペレーションの高度化を支援。 大学教育と実務の両面から、オンラインリテールにおけるAI活用とEC運営の進化を発信している。
LISUTOおよびAIタッガーについて
LISUTO株式会社は、EC事業者向けに商品コンテンツを最適化するグローバルAIソリューションを提供する、日本・イスラエル発のスタートアップです。主力ソリューションである「AIタッガー」は、商品データを自動解析し、検索、レコメンド、業務効率の改善に直結する高品質なタグ情報を生成するコンテンツAIです。大学で教えられているeコマース理論と、グローバルECの現場で培われた実務知見を融合した設計により、人手依存や表記揺れといった商品データ運用の構造的課題を解消し、EC運用の再現性とスケーラビリティを高め、継続的な改善を可能にしています。楽天市場、Yahoo!ショッピングなど、複数のECプラットフォームに対応しており、商品点数やカテゴリ規模を問わず導入できます。
■関連資料
AIが変えるECの未来を解く AI検索と構造化データへの対応戦略 2025
【AIタッガー】SEO×AI検索時代の“見つかる力”を最大化
※「資料掲載企業アカウント」の会員情報では「通販通信ECMO会員」としてログイン出来ません。
資料DLランキング
-
1
機能性表示食品の基礎と落とし穴
-
2
オリジナル商品 Webデザインシミュレーター 『i-DESIGNER』
-
3
【生成AI×EC】EC運営でのAI活用方法
-
4
【AIタッガー】SEO×GEO AI検索時代の“見つかる力”を最大化
-
5
クロスセルを促進して顧客単価を向上!レコメンドサービス
ニュースランキング
-
1
ネット通販の健康食品170商品で不適切な表示、健康増進法違反の恐れ
-
2
育毛剤のネット通販でステマ、プルチャームに措置命令…東京都
-
3
トイレットペーパー購入は「冷静」に、経産省が呼びかけ
-
4
東京都が健康食品試買調査、6商品から医薬品成分…118商品で不適切な表示
-
5
日本生協連、「くらしと生協」と「ベルメゾン」の共同企画を本格展開
