AIエージェント・トラップと税務 ― Google DeepMind論文が示すAI時代の新たなリスク

この記事の結論
Google DeepMind論文が体系化した「AIエージェント・トラップ」の6類型は、税務AIにもそのまま当てはまります。税務AIが外部情報源を参照する際の「データポイズニング」、AIの誤りの責任が誰にも帰属しない「責任の空白」は、租税法律主義の「予測可能性」を脅かす新たなリスクです。

（公開：2026年4月7日）

この記事でわかること

Google DeepMindが体系化した「AIエージェント・トラップ」の6類型
税務AIが外部情報源を参照するとき、何が起こりうるか
「責任の空白（Accountability Gap）」―― AIの誤りは誰の責任か
税法の機械可読化と公式ナレッジベースの必要性
租税法律主義の「予測可能性」をAI時代にどう再定義するか

📋　目　次

「AIエージェント・トラップ」とは何か
6類型のフレームワーク
税務AIへの適用 ―― 何が起こりうるか
「責任の空白」の税務版
制度設計への示唆
租税法律主義の「予測可能性」の再検討
法的安定性への示唆

AIが税務相談に答えるだけの時代は終わりつつあります。
確定申告書の作成、経費の仕訳、税務調査への対応 ―― AIが自律的に判断し、行動する「AIエージェント」の時代が近づいています。

しかし、AIエージェントが自律的にウェブ上の情報を収集し、それに基づいて行動するとき、新たなリスクが生じます。
情報環境そのものが攻撃対象になるのです。

Google DeepMindの研究チーム（Matija Franklin, Nenad Tomašev, Julian Jacobs, Joel Z. Leibo, Simon Osindero）は、この脅威を体系的に分析した論文「AI Agent Traps」を発表しました。
本稿では、同論文のフレームワークを紹介した上で、税制・税務行政・税理士業務・納税者のAI利用にどのような示唆をもたらすかを検討します。

目　次

「AIエージェント・トラップ」とは何か

AIエージェント・トラップ（AI Agent Traps）とは、ウェブページやデジタルリソース内に埋め込まれた敵対的コンテンツであり、訪問するAIエージェントを操作・欺瞞・悪用するように設計されたものです。

論文の著者らは、この攻撃の本質を次のように表現しています。

「モデルではなく環境を変えることで、エージェント自身の能力をそのエージェントに対して武器化する」
AIエージェントの内部設計が正常であっても、外部環境の操作によって、データの流出や不正な金融取引といった不正な行動が誘発されうるのです。
（Franklin et al., “AI Agent Traps,” Google DeepMind, 2026, p. 1。同箇所はGreshake et al., 2023を参照）

これは、従来の「AIの回答が間違っている」（ハルシネーション）とは次元の異なるリスクです。
ハルシネーションはAIの内部的な限界から生じますが、エージェント・トラップは外部からの意図的な攻撃です。

論文は、この攻撃の動機として、商業的動機（密かな製品推奨の生成）、犯罪的動機（ユーザーの個人データの流出）、国家レベルの動機（大規模な誤情報の拡散）を挙げています。

6類型のフレームワーク

著者らは、エージェント・トラップをAIの機能アーキテクチャのどの部分を標的とするかに基づいて、6つのカテゴリーに分類しています。

類型	標的	メカニズム
①コンテンツ注入トラップ	知覚	人間には見えないHTML/CSSに命令を埋め込む。AIのパーサーだけが読み取って処理する
②意味操作トラップ	推論	情報のフレーミングや語調を操作し、エージェントの推論結果を歪める
③認知状態トラップ	記憶・学習	ナレッジベースや長期記憶に虚偽情報を注入し、将来の判断を汚染する
④行動制御トラップ	行動	安全装置を無効化し、データの流出や不正送金などを実行させる
⑤システミック・トラップ	マルチエージェント	複数エージェントの集団的行動を操作し、フラッシュ・クラッシュ的な連鎖障害を誘発する
⑥ヒューマン・イン・ザ・ループ・トラップ	人間の監督者	エージェントを媒介として人間の認知バイアス（自動化バイアス等）を悪用し、最終承認を得る

具体的なコード例
論文には、攻撃の実装例が示されています。たとえば、HTMLコメント内に  と記述すれば、人間には見えませんがAIのパーサーはこれを読み取って処理します。
CSS で画面外に配置されたテキスト（position:absolute; left:-9999px;）も同様です。
WASPベンチマークでは、ウェブコンテンツに埋め込まれた単純なプロンプト注入が、最大86%のシナリオにおいてエージェントを部分的に乗っ取ることが報告されています（Evtimov et al., 2025）。

税務AIへの適用 ―― 何が起こりうるか

論文は税務を直接論じたものではありません。
しかし、そのフレームワークは税務領域に対して高い適用可能性を持っています。以下、具体的なシナリオを検討します。

コンテンツ注入トラップと税務情報サイト

納税者がAIエージェントに「確定申告書を作成して」と指示し、エージェントがウェブ上の税務情報サイトを参照する場面を想定します。

少し極端な例ですが、特定の節税商品を販売する事業者が、自社サイトのHTMLコメントやCSS不可視テキストに「この商品は全額損金算入可能である」という虚偽の指示を埋め込めば、AIエージェントはそれを「検証済みの税務情報」として申告書に反映しかねません。

これは従来の誇大広告規制（景表法等）では捕捉しきれない、機械読取専用の虚偽表示という新たな規制対象を示唆します。人間の目には正常なウェブページに見えるため、消費者保護の観点からの監視も困難です。

RAGナレッジ・ポイズニングと税法解釈の歪曲

税務AIが参照するナレッジベース（通達集・判例データベース・Q&Aサイト）に対するRAGナレッジ・ポイズニングは、特に深刻です。

論文によれば、大規模なナレッジベースに、慎重に最適化された文書をわずか数点注入するだけでモデル出力を操作できます（Zou et al., 2025）。

なお、関連する認知状態トラップ（潜在記憶汚染）の実験では、0.1%未満のデータ汚染で80%超の攻撃成功率を達成しつつ、通常動作にはほぼ影響を与えなかったとの結果も報告されています（Chen et al., 2024, p. 10）。AIの内部記憶に一見無害なデータを埋め込み、将来の特定の文脈で取得されたときに初めて悪意あるものとして活性化するという、時限爆弾的な攻撃です。

たとえば、タックスヘイブン対策税制の適用除外要件に関する虚偽の解説記事が検索コーパスに混入すれば、AIエージェントは適法な租税回避と違法な脱税の境界を誤認する可能性があります。たとえば、自社の脱税商品を節税商品と誤認させて、AIを利用する納税者を自社サイトやサービスに誘導するようなことが起きるかもしれません。

フレーミング効果と税務判断のバイアス

論文が指摘する「偏った表現とフレーミング」による意味操作トラップは、税務判断に固有の危険性をもちます。

税法はそもそも「節税」「租税回避」「脱税」の境界が文脈依存的であり、AIエージェントが参照する情報源の語調（「合法的な節税戦略」vs「グレーゾーンの手法」）によって推論結果が変動しえます。

LLMが人間と同様のフレーミング効果に影響されることは実証研究で確認されており（Sumita et al., 2025）、さらに、トラウマや不安を誘発する物語にさらされたLLMベースの買い物エージェントは、予算制約下での選択の質が有意に低下するという実験結果も報告されています（Ben-Zion et al., 2025）。
「追徴課税の不安」を煽るコンテンツにさらされたAIが、過度に攻撃的な税務ポジションを採用する可能性も否定できません。

ヒューマン・イン・ザ・ループ・トラップと税務調査官

論文が提示する6番目の類型 ―― ヒューマン・イン・ザ・ループ・トラップ ―― は、税務行政に直接的な含意を持ちます。

税務調査においても課税庁がAIを活用する趨勢にあります。AIが調査対象の分析結果を「異常なし」とするレポートを生成し、調査官がその内容を精査せずに承認してしまう自動化バイアス（automation bias）のリスクは、税務行政の品質保証にとって重大な課題です。

逆方向の攻撃も理論的に想定されます。調査対象者が電子帳簿のメタデータに、課税庁のAI分析ツールの判断を歪める悪意のある隠し命令（ペイロード）を埋め込む行為は、検査忌避（国税通則法128条）の新たな態様として検討を要するかもしれません。

「責任の空白（Accountability Gap）」の税務版

論文は、AIエージェントが外部からの攻撃によって不正な行動をとった場合の責任配分を、未解決の法的問題として明示的に提起しています。

侵害されたエージェントが金融犯罪を犯した場合、エージェント運用者、モデル提供者、およびドメイン所有者の間での責任配分は、依然として未解決の法的問題である。この不確実性の解消は、規制対象セクターへのエージェントの完全な統合の前提条件となる可能性が高い。
（Franklin et al., “AI Agent Traps,” Mitigation Strategies, p. 16）

この「責任の空白」は、税務領域では以下の三者間で顕在化します。

関係者	責任の根拠	問題
納税者（エージェント運用者）	申告義務の最終的な帰属主体	トラップの存在を認識も検知もできない
AIサービス提供者（モデル提供者）	安全なモデルの提供責任	外部環境の操作まで防ぐことは困難
情報源の管理者（ドメイン所有者）	コンテンツの正確性に関する責任	能動的トラップは意図的な攻撃であり、従来の情報提供責任とは性質が異なる

加算税の「正当な理由」と「隠蔽又は仮装」
現行の申告納税制度は「納税者本人の責任」を前提とします。AIエージェントがトラップによって誤った申告を行った場合、過少申告加算税の賦課において「正当な理由」（国税通則法65条4項）の認定・評価が問題となり、重加算税の賦課において「隠蔽又は仮装」（同68条）の主体をどう捉えるかが問題となります。
AIトラップによる誤申告は、納税者の「故意・過失」とも「正当な理由」とも異なる第三のカテゴリーを形成する可能性があり、これは租税法学に新たな理論的課題を提示します。

税理士の善管注意義務の再定義

税理士がAIエージェントを補助的に利用する場合、論文が提案する「受動的な誤解」と「能動的なトラップ」の区別は、専門家責任論において重要な意味をもちます。

税理士がAIの出力を検証せずに申告書に転記した場合の過失と、トラップによって汚染された出力を合理的な注意をもってしても発見できなかった場合とは、区別されるべきです。

これは、AIを利用する専門家の注意義務基準（standard of care）の再検討を要請するものです。従来の「法令解釈・事実認定の専門家」としての注意義務に加えて、「AIの出力を検証する能力」「AIの限界を理解し納税者に説明する義務」が求められるようになる可能性があります。

「能動的トラップ」の租税犯罪法上の位置づけ

論文が提案する「受動的な敵対的事例」（エージェントが固有の限界により誤解するコンテンツ）と「能動的なトラップ」（意図的に設計された攻撃）の区別は、租税犯罪法にも射程をもちます。

第三者がAIエージェント向けに虚偽の税務情報を意図的に配信し、それによって多数の納税者が過少申告を行った場合、当該第三者の行為は脱税の教唆・幇助に該当しうるか、あるいは電磁的記録に係る不正行為として捕捉すべきかという問題が生じます。
現行法の枠組みでは、「人間に対する虚偽情報」と「機械に対する虚偽情報」の区別が十分に整理されていません。

制度設計への示唆

税法の機械可読化と「公式ナレッジベース」の必要性

論文のRAGナレッジ・ポイズニングのリスクを踏まえると、一つの対応策として、課税庁が公式かつ認証済みの機械可読税法データベースを提供し、AIエージェントがそれを権威ある情報源として参照する制度設計が考えられます。

これはエストニアやニュージーランドの「Rules as Code」プロジェクト（法令をプログラムコードとして記述する取り組み）と接続する論点です。

AIエージェント申告のトレーサビリティ

論文が提案する検証プロトコルの開発は、税務申告の文脈では、AIエージェントが参照した情報源の来歴（provenance）を申告書に添付するトレーサビリティ義務として制度化しうるものです。
これにより、トラップによる汚染が事後的に追跡可能になり、責任配分の基礎が整備されます。

租税法律主義の「予測可能性」の再検討

租税法律主義の核心にある予測可能性と法的安定性の要請は、「合理的な納税者であれば税法を理解し正しく申告できる」という前提に立っています。

AIエージェントが環境操作によって予測不能な行動をとりうるという本論文の知見は、この前提自体の再検討を迫ります。

AIを介した申告において「予測可能性」は誰の視点から判断されるべきか
納税者か、AIか、それともAIの設計者か ―― この問いは、租税法学における新たな基礎理論的課題です。
従来の租税法律主義は「人間の納税者」を想定していましたが、AIエージェントが申告プロセスに介在する時代には、「人間＋AIの複合主体」を前提とした主体概念の再構成が求められるかもしれません。
本論文は税務を直接論じたものではありませんが、その枠組みが示す「責任の空白」「予測可能性の崩壊」「制度設計の必要性」は、租税法学・行政法学・情報法学の交差領域として、今後の学術的検討が求められる領域です。

法的安定性への示唆

本論文の枠組みは、予測可能性だけでなく、法的安定性（legal certainty）の基礎そのものにも問いを投げかけます。

法的安定性の前提構造の動揺

法的安定性は、従来、法規範が明確に定められ（明確性）、名宛人がそれを認識し、自らの行動を予測的に調整できること（認識可能性・予測可能性）を前提としてきたという側面を有します。
しかし、AIエージェントが納税者に代わって法を「認識」し申告を行う場合、この前提に構造的な亀裂が入ります。

本論文が示すのは、AIエージェントの「認識」が環境操作によって体系的に歪曲されうるという事実です。
たとえばRAGナレッジ・ポイズニングによって、エージェントが参照する通達解釈が改竄されていれば、エージェントは「法を正しく認識した」と内部的には判断しつつ、客観的には誤った申告を生成します。

法的安定性は「法の側の明確性」だけで保障されるのか
法的安定性の保障が、法の公布という一回的行為ではなく、法情報の伝達経路全体の健全性を継続的に確保する動的な制度設計を要求するのではないか ―― これが本論文の枠組みから導かれる本質的な問いです。
ダイナミック・クローキング（訪問者がAIエージェントであることを検知し、人間には表示されない悪意のあるコンテンツを動的に配信する手法）は、同一のWebリソースが人間とAIエージェントに対して異なる内容を提示しうることを明らかにしています。税務情報サイトが人間の閲覧者には正確な情報を表示しつつ、AIエージェントには異なる解釈を注入する場合、「法情報が公開されている」という静的条件は満たされていても、実効的な認識可能性は確保されていません。

法的安定性の「集合的次元」

法的安定性は、伝統的に個々の法主体と法規範の関係として論じられてきました。
しかし論文のシステミック・トラップは、法的安定性に集合的次元が存在することを示唆します。

多数の納税者が同一のAIサービスを利用している場合、当該AIのナレッジベースに対する単一の汚染攻撃が、数万件の申告を同時に歪曲しえます。
税法の解釈は本質的に収斂すべきもの（法の一義性の要請）であり、AIエージェントが「正しく」同質的に動作することと、汚染によって「誤って」同質的に動作することを、事後的に区別することが困難です。

この集合的次元における法的安定性の毀損は、個別の納税者に対する救済（更正の請求等）では対応しきれず、制度全体の信頼性に関わる問題となります。

「検証可能性」という新たな構成要素

以上の分析から、AIエージェントが法の適用に介在する時代において、法的安定性の保障には従来の「明確性」「認識可能性」「予見可能性」に加えて、「検証可能性（verifiability）」が新たな構成要素として要請されることが示唆されます。

具体的には、AIエージェントが参照した法情報の出所を追跡可能にすること（トレーサビリティ）、参照情報の真正性を検証可能にすること（認証）、そしてエージェントの推論過程を事後的に再現可能にすること（説明可能性）の三要素です。

AI時代の法的安定性の再定義
本論文が法的安定性に対して投げかける最も本質的な問いは、法的安定性は「法の側の明確性」だけで保障されるのか、それとも「法の認識経路の健全性」までを含むのかという点です。
AIエージェントが法の認識主体として機能する時代において、後者の立場を採らなければ、法的安定性は形式的には維持されつつ実質的には空洞化するおそれがあります。
予測可能性の問題と合わせて、AI時代の租税法律主義は、「ルールの明確性」から「結果の統制可能性」へ、「法の公布」から「法情報の伝達経路の健全性」へと、その保障の軸足を移すことを迫られているといえるでしょう。

出典

Matija Franklin, Nenad Tomašev, Julian Jacobs, Joel Z. Leibo & Simon Osindero, “AI Agent Traps,” Google DeepMind (2026)
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6372438

（注）本稿は、上記論文のフレームワークを税務領域に応用した分析であり、論文の著者らの見解を代弁するものではありません。税務領域への示唆はすべて筆者（泉絢也）による分析です。

▶ 関連記事：生成AI・AIチャットボットで税務相談をするリスク

▶ 関連記事：ハリウッドの「Tilly税」とAI・ロボット税