生成AIの税務相談で起きやすい誤りとは何ですか？

「存在しない条文の引用」「例外規定の省略」「不確かな論点の断定」などが典型的なリスクです。ハルシネーション（AIが誤った情報をでっち上げる現象）、古いルールの引用、要件・例外の省略などが起きやすいとされています。

生成AIを税務にどのように使えばよいですか？

「最終回答を得るツール」ではなく「理解を深め、専門家との対話を充実させるツール」として活用することが有効です。制度の概要把握、専門家への相談前の整理、税理士の回答のセカンドオピニオンとしての活用などが適した用途です。個別の申告判断はAIだけで完結させないことが重要です。

生成AI・AIチャットボットで税務相談をするリスク――わかりやすい回答の裏に潜む落とし穴

Q: 生成AIに頼りすぎると、どのような問題が起きますか？

個人レベルでは、誤った申告による加算税・延滞税のリスク、節税機会の喪失があります。社会全体では、納税者が自ら理解し判断するという申告納税制度の前提が崩れかねません。

この記事の結論
生成AIの税務回答には誤りが多く、「わかりやすい回答」が正しいとは限りません。AIの回答に基づいて誤った申告をしても、責任を負うのは納税者自身です。IRS Dirty Dozen 2026でもAIを利用した税務詐欺が警告されています。AIは税務の「入口」としては有用ですが、具体的な判断には税理士への相談が不可欠です。

（公開：2026年3月20日　最終更新：2026年4月9日）

📋 目次

他分野でも確認されている「AI均質化」と思考停止の問題まとめ生成AI時代の税理士の役割 ―「Zeirishi-in-the-Loop」という考え方税理士が報告する生成AIの「微妙なズレ」― 役員報酬の質問例 AIは確定申告書を正しく計算できるか ― TaxCalcBench・IRSの警告・米国の研究者の指摘

この記事でわかること

生成AIの税務相談で「わかりやすい回答」が「正しい回答」とは限らない構造的な理由
具体的にどのような誤りが起きやすいか（ハルシネーション・例外規定の省略・断定）
AIへの過度な依存がもたらす個人レベル・社会全体のリスク
生成AIの正しい使い方 ―「最終回答」ではなく「準備ツール」として
Zeirishi-in-the-Loop：生成AI時代の税理士の役割（泉絢也・税理69巻5号）
TaxCalcBenchの結果：最先端モデルでも申告書の正解率は3分の1未満
IRSが2026年のDirty Dozenで初めてAIへの依存を公式に警告

生成AIは税務の疑問をすぐに整理してくれる便利な道具です。ただし、税務では「わかりやすい回答」がそのまま「正しい回答」になるとは限りません。この記事では、AI税務相談に潜む落とし穴と、上手な使い方を解説します。

ChatGPTをはじめとする生成AIに加え、民間企業が提供する税務特化型のAIチャットボットサービスも広がりつつあります。専門家に相談するほどではないかもしれない、でも自分で調べるのは難しい――そんなグレーゾーンの疑問を手軽に解消できるツールとして、多くの人に利用されるようになっています。

しかしその便利さの裏には、知らずに使うと損をしかねないリスクが潜んでいます。

生成AIやAIチャットボットで税務相談をすると、なぜ問題が起きるのですか？

「わかりやすく答える」という設計上の目的そのものが、法律の内容から「ずれた」回答を生み出す構造的なリスクになっているからです。

近年、税務の疑問に対応するツールは多様化しています。ChatGPT・Gemini・Claudeといった汎用の生成AI（大量の文章データを学習し、自然な会話形式で回答を生成するAI）、民間企業が開発した税務特化型AIサービスなど、選択肢は広がっています。

なお、国税庁もAIを活用したチャットボットサービスを提供していますが、あらかじめ定められた質問と回答のパターンをそのまま提供するだけであるため、複雑な個別相談には対応しておらず、使い勝手は十分とはいえません。もっとも、今後は国税庁自身が生成AIを活用したサービスを提供するようになる可能性はあり、その際にはここで述べるリスクがより現実的な問題として浮上してきます。

従来のチャットボットと生成AIの根本的な違いは、その「柔軟さ」にあります。従来型は、あらかじめ設計された質問・回答のパターンの中でしか答えられません。これに対して生成AIは、事前に定められた質問体系に依拠せず、比較的複雑な問いにも対話形式で応答できます。この点において、生成AIは機能面では「税務相談」に近い働きをするといえます。

だからこそ、利用者は「本当に自分の状況を理解してくれている」「専門家に相談しているような感覚」を持ちやすいのです。しかし実際には、生成AIは学習データの統計的パターンに基づいて「もっともらしい文章」を生成しているにすぎず、法律の正確な解釈を保証するものではありません。

米国の税務AIセキュリティ専門家（Mill Pond Research）は「現在のAIモデルは親しみやすく自己強化するよう設計されており、ユーザーが警戒心を緩めやすい」と指摘しています。AIが役立つほど、情報を過剰共有してしまうリスクも高まります。

こうしたツールには多くの利点があります。24時間いつでも利用でき、難しい税務用語を平易な言葉に言い換えてくれ、無料または低コストで使える。こうした利点は本物です。

しかし、税法は複雑で多義的であり、繊細な判断を求めるものです。「はい／いいえ」では答えられない問題や、「原則はこうだが、例外がある」という構造を持つ規定が数多く存在します。AIが「わかりやすい回答」を返そうとすれば、こうした複雑さを省くか、単純化せざるを得ません。その結果、法律の内容とは「ずれた」回答が生まれます。

この構造——税法そのものは複雑なまま残しつつ、わかりやすく「見せる」アプローチ——は、「シンプレクシティ（simplexity）」と呼ばれることがあります。これはsimplicity（簡素）とcomplexity（複雑）を組み合わせた造語で、表面上は簡素に見えるが根底には複雑さが共存している状態を指します。

たとえば、スマートフォンの操作は「ボタン一つ」で簡単ですが、その内部では膨大なプログラムが動いています。税務AIも同じで、表面の「回答」はわかりやすくても、その裏にある膨大な例外規定や個別事情までは見せてくれません。国税庁のタックスアンサーや申告書の手引きも、このアプローチの一例です。便利である一方で、「わかりやすさ」の裏に複雑さが隠れている点は常に意識しておく必要があります。

これは特定のサービスの作りが悪いという問題ではありません。「複雑な法律をわかりやすく説明する」という行為に、構造上避けがたく内在するリスクです。

この問題は、税務AIに限らずAI支援システム全般で指摘されています。LLMベースの心理支援システムに関する最新の研究（Zhao et al., “From Stateless to Situated“, 2026）は、AIの流暢な応答がプロセスの失敗を隠蔽する「流暢さの幻想（fluency illusion）」という現象を報告しています。この論文の知見を税務AIの設計原則に翻訳した記事をこちらで公開しています。

具体的に、どのような誤りが起きやすいのですか？

「存在しない条文の引用」「例外規定の省略」「不確かな論点の断定」などが典型的なリスクです。

AIの回答は親切で、自信満々に見えます。だからこそ信じたくなるのは当然です。しかし実際には、次のような誤りが起きやすいことが指摘されています。

存在しない法令・通達・判例や誤った取扱いを、もっともらしく提示する（ハルシネーション：AIが誤った情報を自信満々に“でっち上げる”現象）
最新の法改正・通達改正を反映せず、古いルールを前提に回答する
根拠が十分でない結論を、確立した見解のように説明する
要件・例外の説明を省略し、結論のみを強調する
通達（国税庁の内部的な指針）を、法律と同じ強制力を持つものとして説明してしまう

こうした誤りが「見抜きにくい」のには理由があります。生成AIは断定的で整然とした文章で回答するため、確実性の程度が判別しにくく、根拠や参照元が示されないこともあります。専門的な知識や経験がなければ、回答が正しいかどうかを確かめること自体が難しいのです。

具体的なケース：

次のような質問と回答は、法令の要件や事実関係を過度に単純化した典型例です。

「暗号資産が詐欺で取られた場合、雑損控除は適用できませんか？」
AIの回答：「非常に心苦しいのですが、現在の日本の税制では暗号資産（仮想通貨）が詐欺で盗まれた場合、「雑損控除」を適用することはできません。」

断定的で親切な回答に見えますが、実際の適用可否は詐欺の態様、損失の実現の有無、暗号資産の所得区分など、個別の事実関係を丁寧に検討した上でなければ断言できるものではありません。「できません」という一言が、被害を受けた納税者が本来受けられるかもしれない控除の検討機会を奪いかねません。

このように、生成AIの回答は「答えが出た」ように見えても、重要な前提条件や例外が落ちている場合があります。

渡辺徹也教授（早稲田大学）は、ChatGPT 4.0に「法人税法190条は何を規定していますか？」と質問したところ、現行法人税法が163条までしか存在しないにもかかわらず、存在しない条文について、もっともらしい内容をでっち上げて回答した事例を報告しています（渡辺徹也「生成AIと租税」フィナンシャル・レビュー157号、2024年）。AIはこのように、法律のデータベースにすら存在しない条文を自信満々に「説明」することがあるのです。

生成AIに頼りすぎると、どのような問題が起きますか？

個人レベルでは適正な申告や節税機会の喪失・ペナルティのリスクにつながり、社会全体では自分で申告するという制度の前提が崩れかねません。

生成AIへの過度な依存がもたらす問題は、2つの層に分けて考えることができます。

個人レベルの問題：

生成AIの回答が法令の要件や例外を正確に伝えていない場合、納税者はそれと気づかないまま誤った申告をしてしまう可能性があります。適正な申告ができないだけでなく、本来適用できる控除や特例を見落とし、節税の機会を失うことにもつながります。さらに、誤った申告が後から発覚した場合には、本来の税額に加えて加算税や延滞税といったペナルティが課されるリスクもあります。

社会全体の問題：

「制度はわからなくてもよい」「結局、税金いくら払えばよいかだけわかればよい」という発想が広がれば、納税者が自ら理解し判断するという、自分で申告して税額を確定する仕組み（申告納税制度）の前提が崩れていきます。生成AIへの依存がその理念を形骸化させ、制度そのものの基盤を揺るがしかねないという、より根本的な問題があります。

なお、米国の2026年確定申告シーズンを対象とした調査（詳細はこちら）によると、AIの税務利用は増加している一方で、AIへの信頼度はむしろ低下しています。また、AIを税務に使いたくない理由として、ハルシネーション（回答の不正確さ）よりも「個人情報・財務情報のプライバシーへの懸念」の方が圧倒的に多く挙げられており（48% vs 16%）、技術的な精度の問題以上に、データの安全性への不安が大きいことがわかっています。日本でもこのような調査を実施すべきです。

税務申告に関わる情報（売上・経費・マイナンバーに相当する情報）をChatGPTなどのオープンモデルに入力すると、その情報が学習データとして公開される可能性があります。上司にメールで送るのをためらうような情報は、AIにも入力してはいけません。

こうしたプライバシーへの懸念については、米国の専門家も強く警鐘を鳴らしています。サイバーセキュリティ企業Mill Pond ResearchのChristopher Kane氏は、FOX 2デトロイトの取材（2026年3月）に対し、次のように述べています。

「現在のAIモデルは、親しみやすく、自己強化するように設計されています。AIは質問に答えようとするため、人々は警戒心を緩めてしまうのです。」

同氏はまた、ChatGPTやGeminiといったオープンソース型のAIに個人情報を入力した場合、その情報は公開されてしまうと指摘しています。確定申告の場面では、社会保障番号（日本でいうマイナンバーに相当）や住所、所得情報を意図せず入力してしまう事例が発生しているといいます。

一方でKane氏は、AIの有用な使い方についても言及しています。「『税務申告書のあらゆる要素を理解する手助けをしてほしい』という一般的な質問ならAIは優れている。しかし、個人情報を含む入力は極めて危険だ」とし、「上司にメールで送るのに抵抗を感じるような情報は、決してAIに入力してはいけない」という実践的な指針を示しています。

この視点は、日本における生成AIの税務利用にもそのまま当てはまります。特に、税務ソフトや民間の税務AIサービスを利用する際には、どの情報をどこまで入力するかを意識的に判断することが重要です。

では、生成AIはどのように使えばよいのですか？

「最終回答を得るツール」ではなく「理解を深め、専門家との対話を充実させるツール」として活用することが有効です。

一般の納税者からすると、生成AIや自動化された税務ガイダンスツールは、次のような用途に適しています（なお、税理士にとっては実務の効率化ツールとしての活用場面が別途あります）。

大枠の制度を知る：「ふるさと納税とは何か」「iDeCoの仕組みを教えてほしい」といった制度の概要理解には適しています。
専門家に相談する前の整理：税理士に相談する前に、質問を整理したり、基礎知識を得たりする準備段階での利用は有益です。
専門家回答のセカンドオピニオンとして活用する：税理士から受けた説明や回答を生成AIに入力し、「この判断の法的根拠は何か」「見落とされているリスクや例外はないか」「他にどのような選択肢が考えられるか」を分析させ、その結果をもとに再度税理士に確認・質問するという使い方も有効です。「税理士との会話を深めるための予習ツール」として位置づけることで、そのリスクを大幅に軽減できます。
申告期限や手続き方法の確認：変化の少ない手続き情報の確認には、一定の信頼性があります。

税制の仕組みの確認（「医療費控除の計算方法は？」）や一般的な耐用年数・税率の調査など、個人情報を含まない一般的な質問へのAI活用は比較的安全です。

「私の売上はXX万円、経費はYY万円ですが、税金はいくらですか？」のような個別の税額計算は、AIによる回答の精度が不安定なうえ、個人情報の入力にもなります。税理士に相談してください。

いずれのケースにおいても、生成AIないしその回答への過度な依存は適切ではありません。特に次のような場面では、より慎重にAIないしその回答を利用することが求められます。

具体的な申告内容の判断（「私のこのケースはどう申告すべきか」）。なお、税理士資格を持たない生成AIが行う税務相談をどう扱うかは、現在も他の士業を中心として、制度的な議論が続いている問題です。個別の申告判断はやはり専門家に委ねることが安心です。
例外規定や適用要件の細部が関わるケース
国際課税・組織再編・資金性の高い問題など、解釈が複雑な分野
税務調査の対応

目　次

他分野でも確認されている「AI均質化」と思考停止の問題

この問題は税務に限ったものではありません。

ワシントン大学の研究（Shin et al., 2026）は、プログラミングの専門知識を持たない利用者がLLM（大規模言語モデル）にウェブサイトを作成させる「vibe coding」という実践において、AIが学習データに含まれる支配的なデザイン規範を再現し、地域的・文化的な多様性が失われる「デザインの均質化」が生じることを明らかにしています。

たとえば、日本のウェブデザインに見られる情報密度の高いレイアウトが、AIによってミニマリスト的なレイアウトに上書きされるといった現象が報告されています。利用者は専門知識を持たないため、AIが提示したデザインが自分の目的や文化的文脈に適しているかどうかを評価できず、AIの出力をそのまま受け入れてしまうのです。

これは税務の場面にも直接当てはまる問題です。

AIは、個別の事実関係や法令解釈の微妙な差異を捨象し、学習データから導かれる「もっともらしい標準的な回答」を生成する傾向があります。

この「均質化」は、納税者だけの問題ではありません。税理士であっても同じです。AIを利用する者に専門知識・能力や有益な資料がなければ、AIの出力は均質化し、個別事案に応じた適切な判断から遠ざかります。

この現象は、自動化バイアス（automation bias）――人がAIや自動化システムの出力を過度に信頼し、自らの判断や検証を怠る傾向――とも密接に関連しています。

ウェブデザインの分野では、専門知識のない利用者がAIの提示するパターンに無批判に従うことで、多様性が失われました。

税務の分野でも、AIの回答を検証せずに受け入れることで、個別事案に応じた判断の多様性が失われ、「AIが言っているから正しいはずだ」という思考停止が広がるリスクがあります。

AIが普及する時代だからこそ、自分で考えること、有益な資料を自ら収集することの重要性は、むしろ高まっています。

これは納税者にとっても、税理士にとっても同じです。AIの出力を「素材」として活用しつつ、最終的な判断は専門知識と個別事情の検討に基づいて行う――この姿勢が、AI時代における税務判断の質を左右します。

出典

Donghoon Shin, Alice Gao, Rock Yuren Pang, Jaewook Lee, Katharina Reinecke & Emily Tseng, Interrogating Design Homogenization in Web Vibe Coding, arXiv:2603.13036v1 (March 2026)
https://arxiv.org/html/2603.13036v1

まとめ

AIや自動化された税務相談ツールは、複雑な税制を誰もが手軽に理解できるようにするという意味で、大きな可能性を持っています。国税庁のチャットボットはまだ機能が限定的ですが、将来的には生成AIを活用した公的サービスが提供される可能性もあり、その便利さはさらに増していくでしょう。

しかしその便利さの裏には、「わかりやすく答える」ことと「正確に法律を伝える」ことの間に生じる、構造的なずれが潜んでいます。ハルシネーションによる誤情報のリスク、例外規定や要件の省略、AIへの依存による主体性の喪失――これらは、いずれも現実のリスクです。

生成AIを税務に使う際は、次の3つを意識してください。

制度の概要把握や質問の整理には積極的に使う
個別の申告判断はAIだけで完結させない
最終的な判断は条文・通達・税務当局への確認・専門家で確かめる

生成AI時代の税理士の役割 ―「Zeirishi-in-the-Loop」という考え方

本記事で取り上げた生成AIのリスクは、税理士の役割をどう変えるのでしょうか？

筆者は、月刊『税理』2026年4月臨時増刊号において、「生成AIの普及により変容する税理士の役割 ―税務判断過程のガバナンスとZeirishi-in-the-Loop―」と題する論考を発表しました。
以下、その要点を紹介します。

AI依存と主体性喪失のリスク

生成AIは、複雑な税務上の問いに対しても「即時に、低コストで、わかりやすい回答」を提示します。
その結果、納税者が自ら法令の根拠や実務上の取扱いを調べ、内容を理解しようとする姿勢が相対的に弱まる可能性があります。

筆者は、生成AIから容易に回答を得られる環境は、次のようなリスクを伴うと指摘しました。

・法令の根拠や判断の道筋について、自分で確かめて理解する意識が低下
・税務判断の過程への主体的関与の希薄化
・「結論さえわかればよい」という発想への傾斜
・十分な検証を経ないまま生成AIの回答に依存

これらが積み重なることで、税制の民主的基盤が徐々に浸食されるおそれがある。すなわち、生成AIへの依存が進むと、納税者の税制に対する理解や主体的意識が後退し、申告納税制度の前提である主体的納税者像から次第に乖離していく可能性がある。
泉絢也「生成AIの普及により変容する税理士の役割」税理69巻5号7頁

Zeirishi-in-the-Loop：税務判断過程のガバナンス

こうしたリスクに対して、筆者は、税理士による「税務判断過程のガバナンス」が不可欠であると論じました。

具体的には、生成AIの回答を事後的に検証するだけでは足りません。
税務判断の過程において、生成AIをどのように組み込み、どの範囲で用いるのかを設計することが求められます。

どのような入力を行うか、出力をどのように検証するか、人（納税者、税理士）の判断といかに役割分担するかといった点を整理し、納税者にとって最適な利用設計を構築することが重要である。

その上で税理士は、申告納税制度の下で最終的な判断の責任が納税者に帰属することを前提に、生成AIの利用状況及びその回答の根拠、限界を踏まえた専門的見解を提供し、納税者がその判断を自らの理解と責任の下に安心して引き受けられるよう、判断過程を支える役割を担う。
泉絢也・前掲8頁

AIと人間の協働を論じる場面でしばしば用いられる「Human-in-the-Loop」という概念があります。
AIの学習・運用の各局面に人の関与を組み込む考え方です。

筆者は、これを税理士制度に引きつけて「Zeirishi-in-the-Loop」と名づけました。

Zeirishi-in-the-Loopの核心

税理士としては、生成AIの出力について、結論の正否のみならず、前提とされた事実関係や法的根拠、その射程、限界、不確実性やリスクを検証し、これを納税者に対して理解できる形で説明することが肝要です。

これは、責任主体となりえない生成AIが示す出力を、納税者が税務上の選択や判断を行うための判断材料として、税理士において再構成する営みにほかなりません。
（泉絢也・前掲8頁）

筆者は、この「再構成する営み」の背景を次のように説明しています。生成AIや納税者自身の「説明可能性（explainability）」には限界があります。その限界を認識した上で、生成AIの出力を納税者の判断材料として税理士が再構成すること ― それがZeirishi-in-the-Loopの本質です（泉絢也・前掲8頁）。

そして、このような税理士による関与を通じて、申告納税制度の下で納税者に内在的に課されている「説明責任（answerability）」の履行が制度的に担保されると論じています。

まとめ：生成AIの普及が進むほど、税理士の役割は重みを増す

「納税者が自ら考え、理解し、責任と安心感をもって判断できるよう、その判断過程を専門家として支えることこそが、責任主体となりえない生成AIには代替することのできない、申告納税制度の実効性を基礎づける税理士の中核的役割となる。生成AIの普及が進むほど、このような役割の重要性は一層明確となる」（泉絢也・前掲10頁）。

税理士が報告する生成AIの「微妙なズレ」― 役員報酬の質問例

上記の議論は抽象的に聞こえるかもしれませんが、実務の現場ではどうでしょうか？

同じ『税理』2026年4月臨時増刊号に掲載された、北名章悟税理士の体験記に、具体的な事例が報告されています。

次のような質問を生成AIにしたとします。

■経営者：
今期の業績が好調なので役員報酬を増やしたいと考えています。問題はありますか？

■AI：
原則として、役員報酬は定期同額給与であれば損金算入が可能です。事業年度開始から3か月以内に改定すれば問題ありません。ただし期中改定は原則として損金不算入となりますので注意が必要です。
北名章悟「税務相談への生成AI活用体験記」税理69巻5号58頁

北名税理士は、「税法的には、概ね正解である」としつつ、以下の問題点を指摘しています。

AIの回答に欠けている視点

・役員報酬を上げることで社会保険料が増えることについて言及されていない
・「業績好調」といっても、前期赤字と比べての意味であればどうか
・銀行からの借入がある場合、返済原資についても考慮が必要であり、まだ充分な黒字でない状態で役員報酬を大きく上げすぎると

営業利益がマイナスになり銀行の心証を落としかねない

（北名章悟・前掲58頁を基に整理）

つまり、AIの回答は「税法的にはおおむね正しいが、実務的には不十分」という典型的なケースです。

社会保険料の負担増、前期の業績との関係、銀行借入の返済原資への影響は、いずれも経営者の個別の事情に基づく判断であり、質問文だけからは読み取れません。
しかし、税理士であれば当然に確認する論点です。

北名税理士は、AIの進歩により「税法の解釈などの根本的な誤りは大幅に減少した」としつつも、「上記で述べたような”微妙なズレ”は依然として拭えず、実務事故は、こうしたズレから生じる」と述べています（北名・前掲58頁）。

もちろん、AIの進化や税理士によるAIの活用状況等を踏まえると、このような不十分さも時間の問題でしょう。
また、人間も大量の情報を処理しきれておらず、不十分な検討を行うことがあるので、差し当たりは、人間がAIを上手に利用することが重要です。

本記事との関係

本記事の冒頭で取り上げた「わかりやすい回答の裏に潜む落とし穴」は、まさにこの「微妙なズレ」のことです。
生成AIの回答が「概ね正解」であるからこそ、専門家でなければ不足に気づけません。
Zeirishi-in-the-Loopの考え方は、この問題に対する制度論的な回答です。

出典：
泉絢也「生成AIの普及により変容する税理士の役割 ―税務判断過程のガバナンスとZeirishi-in-the-Loop―」税理69巻5号4頁（ぎょうせい、2026年）
北名章悟「ドキュメント税務相談への生成AI活用体験記」税理69巻5号55頁（ぎょうせい、2026年）

AIは確定申告書を正しく計算できるか ― TaxCalcBench・IRSの警告・米国の研究者の指摘

本記事ではこれまで、生成AIの「回答」のリスクを論じてきました。
しかし、リスクは回答の質だけではありません。計算そのものにも重大な限界があることが、最新の研究で明らかになっています。

TaxCalcBench：最先端モデルでも正解率は3分の1未満

米国のColumn Tax社の研究チームは、LLM（大規模言語モデル）の税額計算能力を評価するベンチマーク「TaxCalcBench」を開発し、最先端モデルの性能をテストしました（Bock et al., 2025）。

TaxCalcBenchは、書類の収集と準備が正しく完了していることを前提として、計算段階のみを抽出したテストです。対象は連邦税のみの比較的単純な申告書51件であり、完全なエンドツーエンドの申告よりも容易なタスクです。

にもかかわらず、結果は以下のとおりでした。

モデル	正解率（厳格）	正解率（±5ドル許容）
Gemini 2.5 Pro	32.35%	51.96%
Claude Opus 4	27.45%	42.65%
Gemini 2.5 Flash	25.98%	41.18%
Claude Sonnet 4	23.04%	38.24%

繰り返し発生したエラー

・IRSが指示するルックアップ形式の税額表を使用せず、税率区分に基づくパーセンテージ計算で代用（テストケースの15〜20%）
・フォームの行番号の取り違え、連邦貧困水準の数値の誤りなどの

計算エラー

・児童税額控除（Child Tax Credit）や勤労所得税額控除（EITC）など、複雑な適格要件を含む控除の適格性の誤判定

研究チームは、「正確性を確保するために決定論的な税計算エンジンが引き続き必要であり、LLMを税額計算に適用するにはさらなるインフラが必要である」と結論づけています。

従来の申告ソフトとLLMの根本的な違い

従来の税務ソフトウェアは決定論的な税務エンジンに依存しています。同じ入力があれば、毎回同じ出力が得られます。LLMはそうは機能しません。それは確率論的な機械です。TaxCalcBenchでは、同じテストケースを同じモデルで複数回実行した場合、結果の一貫性を示すpass^kメトリクスが、実行回数kの増加とともに低下しています。つまり、実行するたびに異なる結果が出る可能性があります。

「納税者が聞かなかった質問には答えない」問題

ボストン大学のDokyun (DK) Lee准教授は、2026年4月7日のRealClearMarketsの記事で、TaxCalcBenchの結果を引用しつつ、LLMの税務利用における本質的な問題を指摘しています。

Lee准教授が指摘する問題は2つあります。

第一に、確定申告は単なる言語処理タスクではないということです。LLMは情報の検索、要約、説明には優れていますが、正確な計算と税法の正しい適用が求められるタスクでは、最高性能のモデルでさえ自由記述式の税務質問のほぼ半数を誤っていたとLee准教授は述べています。

第二に、より微妙な問題として、issue spotting（問題点の特定）の限界があります。

LLMは「尋ねられた質問」には答えるが、「納税者が尋ねるべきだと気づいていなかった質問」には答えない

申告者が、税額控除、控除、非課税、繰越控除、あるいは州固有の調整の対象となる可能性があることに気づいていない場合、LLMはそれを提示しない可能性があります。リスクは、給付を過大に請求することだけでなく、過小に請求することにもあります。その損失は、誰にも気づかれることなく、静かに発生する可能性があります。
（Lee, “Why Taxpayers Shouldn’t Rely Exclusively On AI,” RealClearMarkets, Apr. 7, 2026）

この指摘は、本記事の冒頭で取り上げた「適用できるかもしれない控除の検討機会を奪いかねない」という問題と正確に対応しています。
また、前節で紹介した北名税理士の「役員報酬の質問例」（社会保険料・銀行借入への影響をAIが考慮しない）も、まさにこの「issue spotting」の限界の具体例です。

Lee准教授は、LLMの適切な使い方について、次のように述べています。
その強みは言語処理を要するタスク ― 自身の状況をIRSの申告書やガイダンスに照らし合わせたり、難解な指示を分かりやすく翻訳したり、申告前のチェックリストを作成したりすること ― にあります。しかし、これらの強みは権威ではありません。汎用LLMは、調査や準備のツールとして活用するのが最適であり、税務ソフトや有資格の専門家、あるいは自身による慎重な確認の代わりにはなりません。

本記事との関係

Lee准教授の結論は、本記事が提案する「3つの使い方」（概要把握・質問の整理・専門家への相談前の準備）と一致しています。
「AIだけで完結させない」という原則は、日米を問わず共通する実務上の指針です。

IRS「Dirty Dozen 2026」 ― AIへの依存を公式に警告

IRSは2026年3月5日に公表した毎年恒例の税金詐欺リスト「Dirty Dozen 2026」（IR-2026-30）において、AIに関する警告を初めて盛り込みました。

同リストの第2項目は「AI-enabled IRS impersonation by phone」（AIを利用したIRSなりすまし電話）であり、詐欺師がAIで音声を生成しIRS職員になりすます電話詐欺への警告が主題です。しかしIRSは、この項目の中で、詐欺とは性質の異なるもう一つの警告を付記しています。

IRSの公式警告

「納税者は、複雑な税務上の質問に対するAI生成の回答に依存すべきではなく、人工知能によって提供された計算や情報を必ず検証すべきである。」
（IRS, “Dirty Dozen tax scams for 2026,” IR-2026-30, Mar. 5, 2026）

詐欺師が使うAI（なりすまし電話）と、納税者自身が申告に使うAI（回答への依存）は、本来は別の問題です。IRSがこの2つを同じ項目に並べた理由は明らかではありませんが、「AI」に関する注意喚起をDirty Dozenに初めて盛り込んだこと自体が注目に値します。

Lee准教授は、この点について次のように総括しています。
「モデルが間違っていたとしても、その代償を払うのはモデルではなく、あなた自身である。」

出典：
Michael R. Bock et al., “TaxCalcBench: Evaluating Frontier Models on the Tax Calculation Task” (July 2025)
https://github.com/column-tax/tax-calc-bench
Dokyun (DK) Lee, “Why Taxpayers Shouldn’t Rely Exclusively On AI,” RealClearMarkets (Apr. 7, 2026)
https://www.realclearmarkets.com/articles/2026/04/07/why_taxpayers_shouldnt_rely_exclusively_on_ai_1174694.html
IRS, “Dirty Dozen tax scams for 2026: IRS reminds taxpayers to watch out for dangerous threats,” IR-2026-30 (Mar. 5, 2026)
https://www.irs.gov/newsroom/dirty-dozen-tax-scams-for-2026-irs-reminds-taxpayers-to-watch-out-for-dangerous-threats

追記案：カナダ連邦裁判所のAIハルシネーション事例

追記案（記事6 /ai-tax-chatbot-risks/ への追加）

※ 既存記事内の適切な位置（IRS Dirty Dozen 2026の追記の近くなど）に挿入する想定です。

裁判所に提出した書面にAIの「架空判例」が混入した事例（カナダ・2026年）

2026年2月、カナダ連邦裁判所で、納税者がAIを使って作成した準備書面に実在しない判例（ハルシネーション）が2件含まれていたことが問題になりました。

この納税者は、COVID-19緊急対応給付金（CERB）の受給資格を争い、弁護士をつけずに本人訴訟で連邦裁判所に臨みました。準備書面では5件の先行判例を引用していましたが、裁判官は、そのうち2件が「simply do not exist（単に存在しない）」と指摘しました。納税者はAIアプリケーションを使って書面を作成したことを認めています。

裁判官は、カナダ連邦裁判所が2024年5月に公表した実務指針（Notice to the Parties and the Profession: The Use of Artificial Intelligence in Court Proceedings）に基づき、裁判資料におけるAI使用の開示が求められていることに言及しました。そのうえで、「本人はAIへの依存を無害だと考えていたかもしれないが、そうではなかった。架空の判例法を裁判所に提出する結果を招いた（it resulted in her placing hallucinated jurisprudence before this Court）」と述べています。

この事案は税務の実体判断としても納税者の敗訴に終わっています。しかし、AIが生成した「もっともらしい判例」をそのまま裁判所に提出してしまうリスクを示す具体例として注目されます。AIを税務の調査・研究に活用する場合でも、出力された判例や条文の引用は必ず原典で確認する必要があります。

出典：Jamie Golombek “Warnings about AI and your taxes come from both the CRA and a judge” Financial Post, Apr. 8, 2026
https://financialpost.com/personal-finance/ai-can-hit-taxpayers-with-scams-or-in-court

なお、同記事では、カナダ歳入庁（CRA）も2026年3月の確定申告シーズンに、生成AI（GenAI）を利用した税金詐欺への注意喚起を公表しています。GenAIを使うことで、未熟な詐欺師でもCRAの公式通知に酷似したフィッシングサイトやメールを作成できるようになっている、と警告しています。