【第7弾】AIの言葉理解はどう進化したのか? 病害虫図鑑の「名前検索」から「症状の似ている度合い検索」へ

🧠 AI概念理解
初級〜中級

AIの言葉理解はどう進化したのか? 病害虫図鑑の「名前検索」から「症状の似ている度合い検索」へ

現代のAIの概念を理解する特集|第7回 飛躍編

第6回までの基礎編で、「AIがどうやってデータから賢くなるのか」の基本原理を学びました。ここからは飛躍編── ChatGPTの核心技術に迫ります。

まず最初のテーマは、「AIが言葉をどう扱うか」の大転換です。
病害虫図鑑を想像してみてください。「うどんこ病」と名前で引く検索と、「葉に白い粉がつく症状」で引く検索── どちらが便利でしょう?
この違いこそが、Bag-of-Words から Embedding への進化です。

📢
特集「現代のAIの概念を理解する」全13回のご案内

この記事は、書籍『ChatGPTはどのように動いているのか?』を農業の言葉で噛み砕く連載(全13回)の第7回です。

基礎編6回で「AIがどうやって学ぶか」が分かりました。ここからの飛躍編では、ChatGPTの核心技術に迫ります。まずは「ベクトル」「コサイン類似度」の発展として、Bag-of-Words → Embedding の大転換を体感します。

🌱

📖 「名前で引く」と「症状で引く」── 2つの検索方法

農家のみなさんは、病害虫の情報をどうやって調べますか?

📖 病害虫図鑑の2つの引き方
📇 従来:名前で引く
🔤
検索ワード

「うどんこ病」

✅ 「うどんこ病」のページがヒット
検索ワード

「葉に白い粉がつく」

❌ ヒットしない(「うどんこ病」という単語がないから)
🧠 進化形:症状で引く
💡
検索ワード

「葉に白い粉がつく」

✅ 「うどんこ病」が意味的に近いとしてヒット
検索ワード

「カビっぽい、風通し悪い」

✅ 関連する病害情報がまとめてヒット

この違いが、AIの言葉理解における最大の進化です。

前者がBag-of-Words、後者がEmbedding── 今回はこの2つの違いを徹底的に理解します。

🌾 農業の場合だと「”うどんこ病”と正確に打てる農家より、”なんか葉っぱに白い粉がついてるんだけど…”と相談する農家のほうが圧倒的に多い」です。後者にも対応できるのが「Embedding」の力です。

🌱

🔤 Bag-of-Words ── 単語が「出たか出ないか」だけを見る

まずは従来の方法、Bag-of-Words(BoW)を理解しましょう。名前の通り、「単語の袋」です。

🔤 Bag-of-Wordsの仕組み
入力文

「トマトの葉にカビが出た。トマトの実は無事。」

↓ 単語に分解して、出現回数をカウント
トマト2
1
カビ1
出た1
1
無事1
⚠️ 語順は完全に無視される。「葉にカビが出た」も「カビに葉が出た」も同じ扱い。

Bag-of-Wordsは文章を「どの単語が何回出たか」の表に変換します。

  • 文章を単語の集まり(袋)として扱う
  • 各単語の出現回数だけを記録する
  • 語順は無視される(袋に放り込むイメージ)
  • 同じ単語が含まれていれば「似ている」と判定
🤔
やってみて気づくこと

Bag-of-Wordsは、第2回で学んだ「ベクトル」の一種です。ただし、各次元は意味ではなく単語そのもの。「トマト」が1次元目、「カビ」が2次元目…と、単語の数だけ次元が増えていくスカスカなベクトルになります。

🌱

🚧 Bag-of-Wordsの3つの限界

Bag-of-Wordsは長年使われてきた手法ですが、大きな弱点があります。

1
言い換えに対応できない
「ラーメン」

「中華そば」

同じものを指しているのに、別の単語だから「無関係」と判定される。

🌾 「うどんこ病」と「白い粉状のカビ」が結びつかない
2
多義語を区別できない
「Apple」🍎
=?
「Apple」💻

果物なのか企業なのか、文脈を見ないので区別できない

🌾 「実が焼ける」→ 日焼け? 病気? 文脈次第なのに判断できない
3
語順・文脈が消える
「犬が人を噛んだ」

「人が犬を噛んだ」

まったく逆の意味なのに、含まれる単語が同じだから同一視される。

🌾 「肥料の前に水をやる」と「水の前に肥料をやる」の区別がつかない

🌾 農業の場合だと「農家が”なんか調子悪い”と曖昧に相談するとき、キーワード検索では何もヒットしない。でもベテラン農家なら”それはたぶん○○だよ”と答えられる」イメージです。この「ベテランの直感」をAIで再現するために生まれたのが「Embedding」の技術です。

🌱

🧠 Embedding ── 意味を「空間の位置」として扱う

では、Embeddingはどう違うのか。
第2回・第3回で学んだ「ベクトル」「意味の空間」を思い出してください。

🧠 Embeddingの意味空間
🦠 病害エリア
うどんこ病
白い粉状のカビ
葉カビ
菌糸が広がる
🐛 害虫エリア
アブラムシ
葉の裏に小さな虫
新芽が縮む
🌡️ 環境ストレスエリア
高温障害
実が焼ける
日焼け
意味が近い言葉は空間の近い位置に配置される。
「うどんこ病」と「白い粉状のカビ」は、単語は違っても近くに並ぶ。

Embeddingのポイントは3つです。

  • 単語を「意味の座標」に変換する ── 出たか出ないかではなく、意味空間のどこに位置するか
  • 似た意味の言葉は近い位置になる ── 「うどんこ病」と「白い粉状のカビ」は隣り合う
  • 意味の近さがグラデーションで測れる ── 「同じ/違う」の二択ではなく、0〜1の連続値で比較
🤔
やってみて気づくこと

第2回で学んだ「作物カルテの数値化=ベクトル化」と、今回のEmbeddingは同じ発想です。違いは、Bag-of-Wordsが「単語の有無」を次元にするのに対し、Embeddingは「意味の特徴」を次元にすること。だから次元数が格段に少なく、しかも意味の比較ができるのです。

🌱

💥 大転換 ── 「キーワード一致」から「意味の近さ」へ

ここまでの2つの方式を並べてみましょう。これがAIの言葉理解における最大のパラダイムシフトです。

💥 AIの言葉理解 ── パラダイムシフト
BEFORE
Bag-of-Words
キーワードが一致するか
  • 単語の有無・回数だけ見る
  • 語順・文脈は無視
  • 言い換えに対応不可
  • 多義語の区別不可
🌾 図鑑を病名の索引で引く
AFTER
Embedding
意味がどれくらい近いか
  • 意味の特徴をベクトル化
  • 文脈に応じた表現が可能
  • 言い換え・方言に対応
  • あいまいな質問もOK
🌾 図鑑を症状の似ている度合いで引く

ChatGPTはキーワード一致で会話しているのではなく、意味の近さで会話している── これが今回の最も重要なメッセージです。

だからこそ、

  • 「言い換え」に対応できる ── 「うどんこ病」と言わなくても通じる
  • 「方言」に対応できる ── 地域固有の言い方でも意味が近ければ拾える
  • 「あいまいな質問」に対応できる ── 「なんか調子悪い」でも、文脈から推測できる

🌾 農業の場合だと「ベテラン農家が新人の曖昧な相談に”ああ、それは○○だよ”と答えられるのは、キーワードではなく『症状の意味の近さ』で判断しているから」です。Embeddingは、このベテランの判断をAIで再現する技術です。

🌱

🌐 Embeddingが開いた応用の世界

Embeddingは単なる「検索の改善」にとどまりません。「意味を測る共通言語」として、あらゆるAI応用の土台になっています。

🌐 Embeddingを土台にしたAI応用
🔍
意味検索
キーワード不要で「意味が近い情報」を探せる
🌾 症状を書くだけで類似事例がヒット
🎯
推薦・レコメンド
「この記事を読んだ人はこれも」が可能に
🌾 似た圃場条件の成功事例を自動提案
📂
自動分類
意味の近さで文書をグループ分け
🌾 栽培日誌を病害・生育・環境に自動仕分け
📝
要約・QA
重要な部分を「意味的に」選んで要約
🌾 長い営農指導レポートの要点を自動抽出
🔗
RAG(検索拡張生成)
AIが自分の知識+外部情報を組み合わせて回答
🌾 品種固有の情報をAIに参照させて回答精度UP
🌍
多言語対応
異なる言語でも意味空間で比較可能
🌾 海外の栽培技術論文を日本語で検索
🤔
やってみて気づくこと

Embeddingは「意味をできるだけ保ったまま、比較可能な形に変換すること」。単なる圧縮ではなく、意味の比較を可能にする変換だからこそ、検索・推薦・分類・要約・QA・RAG──すべてが同じ土台でつながるのです。第2回で学んだ「作物カルテのベクトル化」が、ここまで広がるとは驚きですよね。

🌱

📈 全体の進化を振り返る ── キーワードから意味へ

ここまでの話を、AIの進化の流れとして整理しましょう。

📈 AIの言葉理解の進化
従来
Bag-of-Words
単語の有無・回数だけ
📇 病名で索引を引く
進化①
Embedding
意味を空間の位置で表す
🧠 症状の似ている度合いで探す
進化②
文脈つきEmbedding
同じ単語でも文脈で意味が変わる
🎯 前後の状況込みで判断する
次回
Transformer
文脈つきEmbeddingを支える心臓部
🏭 読む係と書く係の分業システム

🌾 農業の場合だと「以前の農業AIは『キーワード検索』。Embedding以降のAIは『この症状に似た過去事例を探す』が可能に」なります。農家の曖昧な相談にも対応できる理由がここにあります。そして次回学ぶTransformerが、この文脈理解をさらに進化させます。

🌱

まとめ

📌
第7回の結論

AIの言葉理解は「キーワード一致」から「意味の近さ」へと大転換した。Bag-of-Words は単語の有無しか見られなかったが、Embedding は意味をベクトル空間の位置として扱うことで、言い換え・方言・あいまいな表現にも対応できるようになった。これが ChatGPT が「会話」できる土台です。

  • Bag-of-Words=病名で索引を引く検索:単語が出たか出ないかだけを見る
  • Embedding=症状の似ている度合いで引く検索:意味を空間の位置として扱う
  • 大転換のポイント:「同じ/違う」の二択 → 意味の近さがグラデーションで測れる
  • ChatGPTの秘密:キーワード一致ではなく、意味の近さで会話している
  • Embeddingの広がり:検索・推薦・分類・要約・QA・RAG── すべて同じ土台

📍 ここまでの道のり(全13回中 第7回)
🌱

✅ 5分アクション ── Embeddingの力を体感してみよう

✅ 今回の5分アクション

アクション

ChatGPTに「あいまい検索」をさせてみよう

  • 下のプロンプトをコピーして、ChatGPTに貼り付ける
  • わざと病名を使わず、症状だけで質問する
  • AIが「意味の近さ」で正しい病害を特定できるか確認する
📋 プロンプト ── コピーしてそのまま使えます

私は○○県でトマトを栽培しています。

以下の症状について、Bag-of-Words(キーワード一致)とEmbedding(意味の近さ)の違いを体感させてください。

【症状の説明(わざと病名を使わずに書きます)】
「葉っぱの表面に白っぽい粉みたいなものが広がっている。最近、風通しが悪い場所で特にひどい。」

以下の2パターンで回答してください:

【パターン1:キーワード検索風】
上の文から「完全一致するキーワード」だけで病害虫図鑑を検索した場合、何がヒットしますか?

【パターン2:意味検索風】
上の文の「意味の近さ」で判断した場合、最も可能性の高い病害は何ですか? なぜそう判断できるか、症状と病害の「意味の近さ」を説明してください。

2つの結果を比較して、Bag-of-Words → Embedding の進化がなぜ重要なのか、農家向けに簡潔に解説してください。

🌱

📖 次回予告 ── いよいよChatGPTの心臓部へ!

第8回:ChatGPTの心臓部「Transformer」の全体像

今回学んだEmbeddingは、ChatGPTの入口に過ぎません。次回はいよいよTransformerの全体像── 「読む係(エンコーダ)」と「書く係(デコーダ)」の分業構造に迫ります。ベクトル・行列・Embedding・ニューラルネットワーク、基礎編で学んだすべてがここに集約されます。農協の出荷伝票処理に例えて、その仕組みを体感しましょう。

🌱

📚 参考資料
🌱

💬読者の声をお聞かせください

この記事に関するご質問・ご感想をお待ちしています。




※ この記事はAIツール(ChatGPT・Claude等)を活用して作成し、編集部が内容を確認・編集しています。正確性には十分配慮していますが、最新情報は公式サイト等でご確認ください。

この記事は農家の皆さんのAI活用を応援するために作成しました。
ご質問やご感想があれば、ぜひお寄せください。

© 2026 農業AI通信 / Metagri研究所

農家専用AIプロンプト集を無料で読む
経費の勘定科目・病害虫診断・確定申告など、農家がAIに聞きたい質問を集めたプロンプト集(Notionページ)を、メルマガ登録者に無料公開中。
🔒 1分で登録(配信停止はいつでも可能)
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人