AIの言葉理解はどう進化したのか? 病害虫図鑑の「名前検索」から「症状の似ている度合い検索」へ
現代のAIの概念を理解する特集|第7回 飛躍編
第6回までの基礎編で、「AIがどうやってデータから賢くなるのか」の基本原理を学びました。ここからは飛躍編── ChatGPTの核心技術に迫ります。
まず最初のテーマは、「AIが言葉をどう扱うか」の大転換です。
病害虫図鑑を想像してみてください。「うどんこ病」と名前で引く検索と、「葉に白い粉がつく症状」で引く検索── どちらが便利でしょう?
この違いこそが、Bag-of-Words から Embedding への進化です。
📖 「名前で引く」と「症状で引く」── 2つの検索方法
農家のみなさんは、病害虫の情報をどうやって調べますか?
「うどんこ病」
「葉に白い粉がつく」
「葉に白い粉がつく」
「カビっぽい、風通し悪い」
この違いが、AIの言葉理解における最大の進化です。
前者がBag-of-Words、後者がEmbedding── 今回はこの2つの違いを徹底的に理解します。
🌾 農業の場合だと「”うどんこ病”と正確に打てる農家より、”なんか葉っぱに白い粉がついてるんだけど…”と相談する農家のほうが圧倒的に多い」です。後者にも対応できるのが「Embedding」の力です。
🔤 Bag-of-Words ── 単語が「出たか出ないか」だけを見る
まずは従来の方法、Bag-of-Words(BoW)を理解しましょう。名前の通り、「単語の袋」です。
「トマトの葉にカビが出た。トマトの実は無事。」
Bag-of-Wordsは文章を「どの単語が何回出たか」の表に変換します。
- 文章を単語の集まり(袋)として扱う
- 各単語の出現回数だけを記録する
- 語順は無視される(袋に放り込むイメージ)
- 同じ単語が含まれていれば「似ている」と判定
Bag-of-Wordsは、第2回で学んだ「ベクトル」の一種です。ただし、各次元は意味ではなく単語そのもの。「トマト」が1次元目、「カビ」が2次元目…と、単語の数だけ次元が増えていくスカスカなベクトルになります。
🚧 Bag-of-Wordsの3つの限界
Bag-of-Wordsは長年使われてきた手法ですが、大きな弱点があります。
≠
「中華そば」
同じものを指しているのに、別の単語だから「無関係」と判定される。
=?
「Apple」💻
果物なのか企業なのか、文脈を見ないので区別できない。
=
「人が犬を噛んだ」
まったく逆の意味なのに、含まれる単語が同じだから同一視される。
🌾 農業の場合だと「農家が”なんか調子悪い”と曖昧に相談するとき、キーワード検索では何もヒットしない。でもベテラン農家なら”それはたぶん○○だよ”と答えられる」イメージです。この「ベテランの直感」をAIで再現するために生まれたのが「Embedding」の技術です。
🧠 Embedding ── 意味を「空間の位置」として扱う
では、Embeddingはどう違うのか。
第2回・第3回で学んだ「ベクトル」「意味の空間」を思い出してください。
Embeddingのポイントは3つです。
- 単語を「意味の座標」に変換する ── 出たか出ないかではなく、意味空間のどこに位置するか
- 似た意味の言葉は近い位置になる ── 「うどんこ病」と「白い粉状のカビ」は隣り合う
- 意味の近さがグラデーションで測れる ── 「同じ/違う」の二択ではなく、0〜1の連続値で比較
第2回で学んだ「作物カルテの数値化=ベクトル化」と、今回のEmbeddingは同じ発想です。違いは、Bag-of-Wordsが「単語の有無」を次元にするのに対し、Embeddingは「意味の特徴」を次元にすること。だから次元数が格段に少なく、しかも意味の比較ができるのです。
💥 大転換 ── 「キーワード一致」から「意味の近さ」へ
ここまでの2つの方式を並べてみましょう。これがAIの言葉理解における最大のパラダイムシフトです。
- 単語の有無・回数だけ見る
- 語順・文脈は無視
- 言い換えに対応不可
- 多義語の区別不可
- 意味の特徴をベクトル化
- 文脈に応じた表現が可能
- 言い換え・方言に対応
- あいまいな質問もOK
ChatGPTはキーワード一致で会話しているのではなく、意味の近さで会話している── これが今回の最も重要なメッセージです。
だからこそ、
- 「言い換え」に対応できる ── 「うどんこ病」と言わなくても通じる
- 「方言」に対応できる ── 地域固有の言い方でも意味が近ければ拾える
- 「あいまいな質問」に対応できる ── 「なんか調子悪い」でも、文脈から推測できる
🌾 農業の場合だと「ベテラン農家が新人の曖昧な相談に”ああ、それは○○だよ”と答えられるのは、キーワードではなく『症状の意味の近さ』で判断しているから」です。Embeddingは、このベテランの判断をAIで再現する技術です。
🌐 Embeddingが開いた応用の世界
Embeddingは単なる「検索の改善」にとどまりません。「意味を測る共通言語」として、あらゆるAI応用の土台になっています。
Embeddingは「意味をできるだけ保ったまま、比較可能な形に変換すること」。単なる圧縮ではなく、意味の比較を可能にする変換だからこそ、検索・推薦・分類・要約・QA・RAG──すべてが同じ土台でつながるのです。第2回で学んだ「作物カルテのベクトル化」が、ここまで広がるとは驚きですよね。
📈 全体の進化を振り返る ── キーワードから意味へ
ここまでの話を、AIの進化の流れとして整理しましょう。
🌾 農業の場合だと「以前の農業AIは『キーワード検索』。Embedding以降のAIは『この症状に似た過去事例を探す』が可能に」なります。農家の曖昧な相談にも対応できる理由がここにあります。そして次回学ぶTransformerが、この文脈理解をさらに進化させます。
まとめ
AIの言葉理解は「キーワード一致」から「意味の近さ」へと大転換した。Bag-of-Words は単語の有無しか見られなかったが、Embedding は意味をベクトル空間の位置として扱うことで、言い換え・方言・あいまいな表現にも対応できるようになった。これが ChatGPT が「会話」できる土台です。
- Bag-of-Words=病名で索引を引く検索:単語が出たか出ないかだけを見る
- Embedding=症状の似ている度合いで引く検索:意味を空間の位置として扱う
- 大転換のポイント:「同じ/違う」の二択 → 意味の近さがグラデーションで測れる
- ChatGPTの秘密:キーワード一致ではなく、意味の近さで会話している
- Embeddingの広がり:検索・推薦・分類・要約・QA・RAG── すべて同じ土台
キーワード→意味の近さ=Embedding
ChatGPTの心臓部=Transformer
✅ 5分アクション ── Embeddingの力を体感してみよう
✅ 今回の5分アクション
ChatGPTに「あいまい検索」をさせてみよう
- 下のプロンプトをコピーして、ChatGPTに貼り付ける
- わざと病名を使わず、症状だけで質問する
- AIが「意味の近さ」で正しい病害を特定できるか確認する
私は○○県でトマトを栽培しています。
以下の症状について、Bag-of-Words(キーワード一致)とEmbedding(意味の近さ)の違いを体感させてください。
【症状の説明(わざと病名を使わずに書きます)】
「葉っぱの表面に白っぽい粉みたいなものが広がっている。最近、風通しが悪い場所で特にひどい。」
以下の2パターンで回答してください:
【パターン1:キーワード検索風】
上の文から「完全一致するキーワード」だけで病害虫図鑑を検索した場合、何がヒットしますか?
【パターン2:意味検索風】
上の文の「意味の近さ」で判断した場合、最も可能性の高い病害は何ですか? なぜそう判断できるか、症状と病害の「意味の近さ」を説明してください。
2つの結果を比較して、Bag-of-Words → Embedding の進化がなぜ重要なのか、農家向けに簡潔に解説してください。
- 📖 参考書籍
『ChatGPTはどのように動いているのか?』(中西 崇文 著/翔泳社)
第2章 後半「ベクトルからEmbeddingへ」+ 第6章への橋渡し - 🔗 参考
LLMの仕組みを分かりやすく解説(Grune) - 🔗 参考
How Large Language Models Work(CIO)
💬読者の声をお聞かせください
この記事に関するご質問・ご感想をお待ちしています。
※ この記事はAIツール(ChatGPT・Claude等)を活用して作成し、編集部が内容を確認・編集しています。正確性には十分配慮していますが、最新情報は公式サイト等でご確認ください。

