税務調査のAI選定を国民は受け入れるのか―フィンランド1000人実験が示す「正統性」の条件

（公開：2026年5月19日／最終更新：2026年5月19日）

本記事は、租税法研究および公表情報に基づく一般的な解説です。個別の税務判断については税理士等の専門家にご相談ください。引用する調査研究の数値・結論は原典に基づいて記載していますが、制度の前提が異なる国の研究である点に留意してお読みください。

この記事の結論

国税庁がAIで税務調査の対象を選ぶ運用は、技術的な精度の問題であると同時に、納税者がその仕組みを「正統だ」と受け入れられるかという問題でもあり、フィンランドの大規模実験は、設計を誤ると正統性が急速に損なわれることを実証的に示しています。

人間の関与が鍵：AIが単独で判断する設計は、市民が最も強く拒む特徴でした（独立判断は最も大きな負の効果）。
完全外注は正統性を損なう：民間企業への完全なアウトソーシングは強く忌避される一方、官民連携（共同開発）は忌避されませんでした。
データの種類が境界線：政府保有データの活用はむしろ歓迎され、SNS等のプラットフォームデータの利用が拒否の分かれ目でした。

税務当局はすでにAIで調査対象を選んでいる

申告内容のリスクを評価して税務調査の対象を選ぶ作業に、AI（機械学習）を使う動きは世界的なものです。申告書の自動リスク評価は各国の税務当局が採用しており、論文の表現を借りれば、毎年数億人規模の納税者に影響を及ぼす運用です。日本の国税庁も税務行政のデジタル化を進め、調査対象の選定にAI・データ分析を活用しているとされます。ただし日本では本格導入というより試験的な段階にあり、納税者情報の外部漏えいリスクが最大の課題と報じられている点には留意が必要です。

この問題について、当事務所では「税務調査でAIはどう使われているのか？」や「国税庁のAIの法的問題」といった記事で、主に当局側の運用と法的論点を扱ってきました。本記事はそこに、これまで正面から論じてこなかった視点を加えます。すなわち、納税者の側が、AIによる税務判断をどこまで「正統なもの」として受け入れるのか、という視点です。

この問いに、フィンランド国税庁のAIリスク評価を題材として実施された大規模な調査実験が、実証的な手がかりを与えています。Government Information Quarterly 誌（電子政府研究の主要査読誌）に2026年に掲載された、Ville Aula・Jaakko Hillo・Tero Erkkilä の3氏による研究です。以下ではまずフィンランドでの実験結果を正確に整理し、そのうえで日本の国税庁による調査選定への含意を最後に論じます。フィンランドと日本では税務行政の前提が異なるため、結果をそのまま日本に当てはめられない点にはあらかじめご注意ください。

あらかじめ研究の性格を明確にしておきます。この研究が検証したのは、フィンランドにおける「不正検知」――AIが申告の矛盾を検出して納税者に説明を求める、という具体的なタスクです。AIで定型業務を効率化する話ではなく、納税者に直接の不利益が及びうる場面に焦点を当てています。論文自身も、知見は「市民に直接影響する複雑なリスク評価」には一般化しうるが、単純な定型業務の自動化には及ばないと限界を述べています。この射程を踏まえたうえで読み進めてください。

なぜ「正確さ」だけでなく「正統性」が問題になるのか

税務AIをめぐる議論は、ともすれば「AIの判定はどれだけ正確か」という性能の話に偏りがちです。しかし、行政がAIを使うとき、もう一つ無視できない論点があります。それは、その仕組みが市民の目から見て正統（legitimate）と感じられるかどうかです。

論文はこの点を、過去の失敗例とともに指摘します。AIによる行政判断が信頼を失うと、その影響はAIへの評価にとどまらず、政府そのものへの市民の態度を損なうおそれがある、というのです。具体例として挙げられているのが、オーストラリアの「ロボデット（Robodebt）」スキャンダルや、米国の再犯予測ツール「COMPAS」をめぐる問題です。いずれも、技術の精度以前に、仕組みの正統性が崩れたことで国家的なスキャンダルに発展しました。

本研究の「正統性」の測り方

論文は正統性を、「ある主体や行為が、社会的に構築された規範・価値・信念の体系のなかで適切だと認識されること」（Suchman, 1995）と捉えています。具体的には、公正さ・信頼性・透明性・有効性・受容性の5項目（各7段階）からなる指標を構築し、内部一貫性（クロンバックのα）は0.91と高い水準でした（クロンバックのαは、複数の質問が同じ一つの概念を一貫して測れているかを示す指標で、1に近いほど良好。0.9以上は非常に高い水準とされます）。なお、参加や代表に関わる「インプットの正統性」は、日常的な税務判断には関連が薄いため分析から除外しています。

※ Ville Aula, Jaakko Hillo, Tero Erkkilä, “AI in Taxation — Experimental evidence on citizen design preferences and perceptions of legitimacy,” Government Information Quarterly 43 (2026) 102147. https://doi.org/10.1016/j.giq.2026.102147 ／複製資料（事前登録・データ）：https://osf.io/3tn6v

フィンランドの大規模実験は何を明らかにしたか

研究の舞台がなぜフィンランドなのか。
論文は、フィンランドが国家と市民の間の信頼が高く、税務行政における自動意思決定の利用がすでに確立した国だからだと説明します。著者らはこれを「AI導入が成功しやすい、最も条件の良いケース」と位置づけます。逆に言えば、この最も条件の良い国ですら市民の正統性認識が損なわれるなら、信頼の基盤がより弱い国ではさらに脆弱になりうる、という読み方ができます。ここは日本に引きつけて読む際の重要な留保点です。

調査は、無作為に募集されたフィンランド市民1,072名を対象に、2024年10月25日から11月10日にかけて実施されました（回答率36%）。設計には、フィンランド国税庁の上級行政官への聞き取りを反映させ、現実的なAI利用シナリオを組み立てています。

本研究は「コンジョイント実験」と「ビネット実験」という2つの手法を組み合わせています。いずれも社会科学の調査手法ですが、簡単に言えば次のようなものです。

コンジョイント実験とは、複数の条件（人間の関与の度合い、開発主体、使うデータなど）を組み合わせた2つの設計案を並べて見せ、回答者にどちらか一方を選ばせる手法です。これを条件を変えながら繰り返すと、回答者が実際にはどの条件をどれだけ重視して選んでいるのかを統計的に取り出せます。アンケートで「透明性は重要ですか」と直接尋ねるより、選択行動から本音の優先順位を測れるのが利点です。

ビネット実験とは、現実に起こりうる具体的な場面を短い文章（ビネット）で示し、その状況をどう感じるかを答えてもらう手法です。本研究では「AIが申告の矛盾を検出し、説明を求める手紙が届いた」といった場面を提示し、それを正統だと感じるかを評価させています。抽象的にAIの是非を問うのではなく、自分が当事者になった場面での反応を引き出せるのが特徴です。

2つの手法の役割分担は次のとおりです。

実験	何を測ったか	仕組み
コンジョイント実験	AI設計の各特徴を市民がどれだけ重視するか（選好）	属性を変えた2つのAI設計案を提示し、4回の二者択一を強制
ビネット実験	具体的場面でのAI判断を市民がどれだけ正統と感じるか	「AIが申告の矛盾を検出し説明を求める手紙が届いた」等の短い状況描写を提示し、正統性を評価

2つの異なる手法で同じ文脈を検証することで、結論の頑健性を高めている点が本研究の強みです。検証された4つの仮説と結果は次のとおりです。

仮説	コンジョイント	ビネット
H1：人間の裁量が減り自動化が進むほど評価が下がる	支持	―
H2：透明性が低いほど評価が下がる	支持	―
H3：民間関与が大きいほど評価が下がる	条件付き支持	支持
H4：私的データの利用が多いほど評価が下がる	条件付き支持	条件付き支持

市民が最も強く拒んだのは「AIの独立判断」だった

コンジョイント実験で、調査されたすべての特徴のなかで最も強く市民に拒まれたのは、AIが人間の関与なしに独立して判断を下す設計でした。推奨だけを行うAI（ベースライン）から、AIが自ら判断を下すシステムへ移ると市民の支持は下がり、AIが独立して動く場合にその効果が最も大きくなりました（約−22.6ポイント、p<0.001）。なお、税務担当者の検証を伴うAI判断も、推奨のみの設計よりはわずかに好まれませんでした（約−4.7ポイント）。

ビネット実験でも整合する結果が出ています。AIによるリスク評価が「申告に矛盾がある」として説明を求める手紙を送るという設定は、正統性の認識を大きく低下させました（モデル1で約−1.34、p<0.001）。論文はこの効果量を、回答者の「税務当局は公正だという事前の認識」が最大値7から最小値1まで落ちる場合より大きく、「AIへの関心・期待」が7から1へ落ちるのとほぼ同等だと説明しています。日常感覚に乏しい統計値ですが、要するにAIが自分の申告を疑って接触してくること自体が、税務当局への信頼を大きく揺るがすということです。

注意：効果はむしろ「当局を信頼していた人」で強い

この信頼低下は、もともと税務当局を不公平だと思っていた人より、公正だと認識していた人のあいだでより強く表れました。普段から行政を信頼している層ほど、AI主導の接触によって失うものが大きい、という非対称があります。コンプライアンスが「公正だという感覚」に支えられている税務の世界では、見過ごせない指摘です。

民間への完全外注は正統性を損なう――ただし官民連携は別

本研究の最も独自性の高い発見が、AI開発・運用に民間企業がどう関わるかという論点です。ここには明確な非対称がありました。

許容された関与

官民連携（共同開発）：税務当局と民間が共同で開発する設計は、税務当局の自社開発（ベースライン）と統計的に有意な差がありませんでした（p=0.917）。市民から忌避されていません。
論文は、市民が「よく機能するAIを作るには民間の能力が必要だ」と認識している可能性、官民連携が公共部門のIT開発で常態化している可能性を、説明として挙げています。

忌避された関与

民間事業者への完全外注：開発を民間サービス提供者にアウトソーシングする設計は強く忌避されました（約−19.9ポイント、p<0.001）。
ビネット実験でも、民間AI企業がリスク評価を実施するという条件は、正統性を有意に大きく低下させました（約−0.85、p<0.001）。市民は「誰がAIを開発し運用するか」を気にしている、ということです。

論文はこの非対称を、米国の先行研究（外注の効果を見いだせなかった Haim & Yogev, 2025）とは矛盾するが、英国の研究（市民は民間関与を好まない／Horvath et al., 2023）と整合する、と位置づけています。2つの独立した実験で一貫して負の効果が出たことが、この発見の頑健性を支えています。

どのデータを使うか――政府データは歓迎、SNSは拒否

「データ収集が増えるほど市民は反発する」という単純な図式は、本研究では成り立ちませんでした。ここは結論を誤りやすい箇所なので、原典の数値どおりに整理します。

AIが使うデータ（給与・自己申告データに追加）	市民の反応（AMCE）
＋政府の登録データ	むしろ選好が上昇（+11.8ポイント、p<0.001）
＋銀行口座データ	有意でない（+3.1ポイント、信頼区間がベースラインと重なる）
＋オンラインプラットフォーム・SNSデータ	強く忌避される（−11.3ポイント、p<0.001）

つまり市民は、プライバシーのリスクを「足し算」では捉えていません。政府がすでに保有するデータの活用はむしろAIの精度を高めると受け止められる一方、SNSのアカウントを精査して申告の不一致を探すような利用が、明確な拒否の分かれ目になります。なお、ビネット実験における「広範なデータ収集」の効果は、主たる効果（明確化要求）に比べると小さく、精度を高めた共変量モデルで初めて統計的に有意になりました。論文自身も、この点はコンジョイントとビネットでやや異なる「条件付きの支持」だと整理しています。

透明性は効くが、万能薬ではない

透明性については、公開情報もソースコード開示もない（両方が欠如する）設計が、市民の選好を明確に下げました（約−13.5ポイント、p<0.001）。一方どちらか片方だけが欠ける場合、負の効果は小さく不確実でした。

ただし論文が強調するのは、透明性は正統性を確保するうえで重要だが、人間の関与や民間関与に比べれば相対的に重要度は低いという点です。著者らは「透明性だけでは正統性の問題を解決する特効薬にはならない」「政策立案者は透明性を主要な解決策ではなくシステム設計の一要素として扱うべきだ」と明言しています。AIの説明可能性さえ確保すれば市民は納得する、という発想への重要な反証です。

ここまでの4つの知見を一言でまとめれば、本研究が示すのは、「AIがどう動くか」以上に、「誰が責任を持って動かしているか」が市民の評価を左右するということです。説明可能なAIであるかよりも、人間が責任を負い、公的機関が統制の主体であるかどうか――それが正統性の核心にあります。

日本の税務行政への示唆

ここまでがフィンランドでの研究の紹介です。ここからは、この知見を日本の税務行政との関係でどう読むか、筆者の視点を交えて考えます。

この研究はフィンランドの不正検知という文脈の研究であり、結果をそのまま日本に当てはめることはできません。著者ら自身、私的関与への嫌悪が「フィンランドの文脈・税制という領域・不正検知というタスク」のどれに由来するかは今後の検証課題だと留保しています。一方で、論文は知見の一般化範囲についても明確に述べています。すなわち、検証したのは個人に不利益が及ぶ複雑なリスク評価であり、その種のタスク（社会給付の不正検知など、市民に直接影響するリスク評価）には一般化しうるが、単純な定型業務の自動化には及ばない、と。

この一般化範囲は、国税庁による税務調査対象の選定とも構造が重なります。調査対象に選ばれることは納税者に直接の不利益が及びうる複雑なリスク評価であり、論文も「リスク評価は毎年数億人規模に対して行われる税務の日常的な要素であり、各国の税務当局が本研究のシナリオと同様にAIを実験する可能性が高い」と述べているからです。そのうえで、日本の文脈に引きつけて読める含意を整理します。

設計上の含意（論文の政策提言より）

人間の責任を残す：目に見える人間の監督がない完全自動の意思決定は避けるべき。AIが矛盾を検出して接触する場面では、決定が審査可能で、人間の権限に帰属することを保証する。
中核機能の完全外注を避ける：システム設計と運用への公的統制を保ち、外部の技術的専門知識に依存する場合でも、監督と説明責任を行使できる内部能力を維持する。官民連携自体は否定されていない。
データ源を選別する：行政・金融データの利用は忌避されないが、デジタルプラットフォーム（SNS、フリマアプリやネット上の取引・収入情報など）からのデータの統合には特に税務面で慎重であるべき。
信頼の高い機関ほど慎重に：公正さの認識が高い機関ほど、設計の悪いAI導入で失うものが大きい。信頼は築くのに時間がかかるが、急速に損なわれうる。

論文は最後に、政府が直面する構造的なジレンマを Abbott ほか（2020）の用語で「能力と統制のトレードオフ」と表現します。AIツールを開発するには民間の関与が必要だが、正統性を損なわないよう、統制の手綱は手放してはならない――これは、AIによる調査選定を進める日本の税務行政にとっても、そのまま当てはまる問いです。技術的に最適な解が、慎重な設計なしには社会的に持続可能とは限らないのです。

なぜこれが税務行政において決定的に重要なのか。税務行政は、調査や強制徴収といった権力的手段だけで成り立っているわけではありません。大多数の納税者が「制度はおおむね公正だ」と感じ、自発的に申告・納税することで初めて回っています。論文も「コンプライアンスは公正さの認識に依存する」と述べ、設計の悪いAIがその認識を侵食しうると警告しています。つまり、税務AIの設計を誤って正統性が損なわれれば、調査対象選定の精度が上がっても、その先で自発的な納税協力という制度の土台が掘り崩されかねない、ということです。納税協力が「公正だという感覚」に支えられている以上、税務AIの正統性は、精度と同じ重みで設計されるべき論点だと言えます。

将来的には、より多くの人が恩恵を受けられ、多くの人にとって効率的だという意味で、より簡素で包摂的なAIを国税当局が国民に提供するようになる、あるいは提供することが求められる可能性があります。しかし、国税当局がそのようなAIを提供したとしても、それが国民に拒絶される設計であれば、社会に浸透していくことはないでしょう。どれだけ望ましいAIであっても、正統性を欠けば根づかない――この研究が突きつけているのは、そういう問いです。