【雑談】 3 【AI】なぜ文字数ではなく、トークンという言い方をするの?

答え

文字数とトークンは異なるから

解説

🧩 1. トークンとは何か?

「トークン」とは、AIにとっての最小の意味単位です。
日本語や英語の文章を、AIが理解できるように分解した「かけら」のことです。

入力文トークン分割例(イメージ)
「こんにちは」「こん」「に」「ちは」
「I love cats.」「I」「love」「cats」「.」

つまり、トークン=AIにとっての「語句の粒」。
英語では単語単位に近く、日本語ではもっと細かく(数文字ごと)に分かれます。


💡 2. なぜ「文字数」ではなく「トークン数」なのか?

AIは文字そのものを理解しているわけではなく、
トークンを数値ベクトル(意味の座標)に変換して処理します。

この「トークンごとの数値化」がAIの思考の出発点なので、
「何トークン入力されたか」がAIの処理量やコストを正確に表します。

文字数トークン数(目安)
Hello, world!13約4
こんにちは、世界!9約6〜8

英語は単語単位で分けやすいですが、日本語は文節や助詞などで細かく切られるため、
「文字数=トークン数」にはならないのです。


⚙️ 3. トークン単位で扱うメリット

AIモデルの中では、
1トークン → 数百次元のベクトル
として計算されます。

この単位で管理すると、

  • 計算の効率がよくなる
  • 言語ごとの差(日本語と英語など)を統一的に扱える
  • 文の意味を保持しやすい

といった利点があります。


🧮 4. 「1トークン=○文字」ってどのくらい?

ざっくり言うと:

言語1トークンあたりの平均文字数
英語約4文字
日本語約1〜2文字

つまり、日本語のほうが文字数の割にトークン数が多くなりやすい
だから、同じ「1000文字」でも、
英語より日本語の方がトークン数は多くなります。


🧠 5. まとめ:なぜ「トークン」なのか

項目理由
⚙️ AI内部処理単位AIは文字ではなく「トークン」を理解・計算するため
💬 言語差言語によって文字構造が異なり、「文字数」では不正確になるため

参考情報

AITC:生成AIにおける「トークン」とは?をやさしく解説
https://aitc.dentsusoken.com/column/what-is-a-token-in-generative-ai/

コメント

タイトルとURLをコピーしました