【雑談】 3 【AI】なぜ文字数ではなく、トークンという言い方をするの？

答え

文字数とトークンは異なるから

「トークン」とは、AIにとっての最小の意味単位です。
日本語や英語の文章を、AIが理解できるように分解した「かけら」のことです。

例

入力文	トークン分割例（イメージ）
「こんにちは」	「こん」「に」「ちは」
「I love cats.」	「I」「love」「cats」「.」

つまり、トークン＝AIにとっての「語句の粒」。
英語では単語単位に近く、日本語ではもっと細かく（数文字ごと）に分かれます。

AIは文字そのものを理解しているわけではなく、
トークンを数値ベクトル（意味の座標）に変換して処理します。

この「トークンごとの数値化」がAIの思考の出発点なので、
「何トークン入力されたか」がAIの処理量やコストを正確に表します。

例

文	文字数	トークン数（目安）
Hello, world!	13	約4
こんにちは、世界！	9	約6〜8

英語は単語単位で分けやすいですが、日本語は文節や助詞などで細かく切られるため、
「文字数＝トークン数」にはならないのです。

AIモデルの中では、
1トークン → 数百次元のベクトル
として計算されます。

この単位で管理すると、

といった利点があります。

ざっくり言うと：

言語	1トークンあたりの平均文字数
英語	約4文字
日本語	約1〜2文字

つまり、日本語のほうが文字数の割にトークン数が多くなりやすい。
だから、同じ「1000文字」でも、
英語より日本語の方がトークン数は多くなります。

項目	理由
⚙️ AI内部処理単位	AIは文字ではなく「トークン」を理解・計算するため
💬 言語差	言語によって文字構造が異なり、「文字数」では不正確になるため

AITC：生成AIにおける「トークン」とは？をやさしく解説
https://aitc.dentsusoken.com/column/what-is-a-token-in-generative-ai/