税理士事務所と会計ソフトのAI活用最前線 ― 税理69巻5号と大野修平著『これならできる！生成AI活用アイディア23選』から

この記事の結論

税理士事務所では生成AIの活用が急速に進んでおり、年間8,000時間以上を創出した事例や50時間の作業を5分に短縮した事例が報告されていますが、現時点では税理士の判断を代替する段階には至っておらず、定型業務の効率化を中心としつつ、専門業務の知的支援にも広がっています。

事務所の実践事例：内製開発で年間8,000時間超を創出、CSV変換で50時間→5分、AI-OCRで医療費控除入力1時間→5分など、定型業務の効率化を中心としつつ、ナレッジ検索や論点整理といった専門業務の知的支援にも広がる。
会計ソフトのAI機能：11社のAI機能はAI-OCR系・AIレビュー系・AI経営分析系の3方向に整理でき、いずれも最終判断は税理士が担う設計。
米国の実証研究：Big4中心の専門家調査でも、生成AIは判断を自動化せず「コパイロット」として使われ、効率化は全社的価値には未転換と判明。

（公開:2026年4月3日／最終更新:2026年5月26日）

本記事は、月刊『税理』69巻5号（2026年4月臨時増刊号、ぎょうせい）および大野修平著『これならできる！税理士のための生成AI活用アイディア23選』（第一法規、2026年）、ならびに Accounting Horizons 掲載の学術研究および中国の研究グループによる査読前プレプリント（arXiv:2604.08948v2）に基づいて構成しています。各製品・サービスの仕様は執筆時点のものであり、変更される可能性があります。

📋 この記事でわかること

税理士事務所のAI活用事例（年間8,000時間創出、50時間→5分など）
会計ソフトベンダー11社のAI機能一覧（AI-OCR・AIレビュー・AI経営分析）
大野修平著『これならできる！生成AI活用アイディア23選』の紹介
米国の実証研究が示す「生成AIは税務でどう使われているか」
中国の実証研究 ― 税務特化LLMは一般LLMより税務に強いのか
実務家の発信から ― 「判定はAI、承認は人間」という線引き
まとめ

税理士業界で生成AIの活用はどこまで進んでいるのでしょうか。

月刊『税理』2026年4月臨時増刊号（特集「導入実践事例から探る税理士×AIの可能性」）は、10の税理士事務所の実践事例と11社の会計ソフトベンダーのAI機能を一堂に紹介しており、税理士業界のAI活用の現在地を把握するのに最適な一冊です。また、大野修平税理士（セブンセンス税理士法人）による『これならできる！税理士のための生成AI活用アイディア23選』（第一法規、2026年）は、税理士業界に特化した生成AIの活用方法を、すぐに試せるプロンプトとともに体系的に整理した実務書であり、「生成AIを使ってみたいが、何から始めればよいかわからない」という税理士にとって格好の入門書です。

本記事では、これらの資料に加え、米国の査読付き学術研究および中国の研究グループによるベンチマーク評価研究も参照しながら、税理士が関心を持ちそうなAI活用の具体例と、その実像を整理します。

📝 ベンダー様へ
情報収集のため、AIを活用した税務関係サービスを提供されているベンダーの方で、当ブログでのご紹介をご希望の方は、お問い合わせフォームよりご連絡ください。

税理士事務所のAI活用事例

『税理』臨時増刊号に掲載された10の実践事例は、規模も取り組み方も多様であり、大規模法人から個人事務所まで、それぞれの環境に合った活用の工夫が見られます。以下、10事例のうち、具体的な成果やツール名が明らかになっている5事例を紹介します。

アイユーコンサルティンググループ ― 年間8,000時間以上を創出

国内外15拠点・190名体制のアイユーコンサルティンググループは、2025年7月に開発専門チーム「DXソリューション部（DXS部）」を設置し、AIツールの内製開発に踏み切りました。

ツール	内容	効果
SOROBO OCR	通帳PDFを生成AIが構造化し、専用Excelへ自動連携するWebアプリ	年間1,800時間削減（月間150回の解析をAIが完結）
AIチャット（判例・社内ナレッジ検索）	相続税判例や社内資料をテーマ別に生成AIが横断検索。税務判断の手助けとなる情報を統合的に提供	リサーチ時間を10分の1に短縮（月間約50時間削減）。現場評価4.4/5.0
MCP連携（基幹システム）	MCP（Model Context Protocol）を通じて生成AIが基幹システム上のデータを参照。情報の一括更新や確認を自動化	顧客・売上の傾向把握など「攻めのマーケット分析」にも活用

定量成果

グループ全体で月間約690時間を削減(人件費換算で月約206万円)。年間では8,250時間・2,400万円分を超えるリソースを「作業」から「付加価値」へ転換。月間690時間の削減には、上記のSOROBO OCR(月150時間)・AIチャット(月50時間)・RPA再設計(月10時間)に加え、業務データのMCP連携、要件定義の効率化、開発プロセス全般の高速化等が含まれます(税理69巻5号32〜36頁)。開発にはClaude Code、Gemini CLI、Codexを活用しています。

特筆すべきは、「現場の動線を崩さない『足さない』設計」という方針です。生成AIの解析結果はExcel上のボタンひとつでAPIを呼び出し、既存のフォーマットへ自動反映される仕組みになっており、「職員に新たな操作を強いるのではなく、日常の動線に生成AIを溶け込ませる」設計思想が採用されています。AIの導入が「現場の負担」にならないための具体的な工夫として、他の事務所にも参考になる視点です（岩永悠・中道正和「年間8,000時間以上創出！現場主導のAI共創で挑む、高付加価値最大化への挑戦」税理69巻5号32頁以下、特に36頁）。

道明誉裕税理士事務所 ― 50時間を5分に

他社会計ソフトから約6,000本の仕訳データをCSVで受領したところ、「集計行」の混在が原因で自社の会計システムに取り込めないという問題が発生しました。

道明税理士は3つの方法と想定時間を比較しました(税理69巻5号45頁の図表-5)。第1案の「全仕訳手入力」は約50時間でムリ。第2案の「集計行を1行ずつ手動で削除」は約3時間でムダ。そこで第3案として、ChatGPTに「列Bが空白である場合にその行を削除するVBAコード」を生成させたところ、数秒でコードが完成し、約5分で6,000本の仕訳データの取り込みが完了しました(集計行削除の自動化)。

生成AIは「税務判断」よりも「データ加工・変換」の場面で即効性が高いという好例です。申告期限まで残り2週間という状況で、50時間の手作業を回避できた判断力と実行力は見事というほかありません。「エンジニアとして本能的に、何か時短・業務効率化できないかを考えた」という道明税理士の姿勢は、生成AIを活用する上での重要なヒントです（道明誉裕「50時間を5分に！」税理69巻5号41頁）。

石黒健太税理士事務所 ― AI-OCRとナレッジ基盤の再構築

記帳代行業務においてJDLのAI-OCRを導入し、医療費控除の入力作業が1顧客あたり1時間から約5分に短縮されました(税理69巻5号48頁)。これとは別に、通帳の仕訳化(API連携できない通帳のスキャン処理)では、手入力の約10分の1の時間で完了するようになっています(同49頁)。人間はAIが読み取った結果を画面上で最終確認する役割へ移行し、AIと人間によるダブルチェック体制が構築されています。

さらに注目すべきは、事務所内のナレッジをGoogle Workspaceへ集約する取り組みです。JDL内に蓄積してきた膨大なスキャンデータをGoogleドライブへ順次移管し、「PDFデータの蓄積」から「生成AIが検索・活用できるナレッジ基盤」への転換を目指しています。AIの導入を単なる入力作業の効率化にとどめず、事務所全体の知的基盤を再設計するという視野の広さが印象的です（石黒健太「AIを『協働者』として迎え、事務所の知的基盤を再定義する」税理69巻5号48頁）。

東日本税理士法人 ― Gemini＋GASで定型業務を自動化

Google Workspaceを法人契約し、全職員がGeminiを使用できる環境を整備。プログラミング未経験の職員でも、Geminiに要件を伝えてGAS（Google Apps Script）のコードを生成させ、定型業務を自動化しています。具体的には、以下の業務が自動化されています。

業務	Before	After
Excel集計	データの並べ替え・関数入力を手作業で繰り返す	GASで集計工程を自動化
書式統一・PDF化	顧問先ごとに書式が異なるExcelの列幅修正・印刷範囲設定を手作業で実施	GASで書式の一括調整からPDF出力まで全自動化

（坂田茂「テレワーク体制で進める生成AI導入実務」税理69巻5号99頁）

戸村涼子税理士事務所 ― ChatGPTのProject機能で長期的な文脈を共有

ひとりで税理士事務所を経営する戸村涼子税理士は、生成AIを業務効率化のためのツールというより、思考を支える装置として活用していると述べています。特にリサーチの場面で、検索エンジンで調べていた時間がそのまま生成AIに移行した感覚があるとしています。

なかでも実務的に有用なのが、ChatGPTの「Project」機能の活用です。特定テーマごとにプロジェクトを分け、関連資料や前提条件を設定しておくことで、長期的な文脈を共有することが可能になります。例えば税制改正の場合には、税制改正大綱のPDFや関連する複数の資料をアップロードし、「アップロードした資料にない情報はネットで検索してほしい」などの前提条件を指定しておくことで、改正内容や背景を横断的にリサーチできます(戸村涼子「生成AIで空いた時間を仕事で埋めないという選択」税理69巻5号93頁)。

会計ソフトベンダーのAI機能一覧

同じ『税理』臨時増刊号の第3部では、11社のベンダーがAI機能を紹介しています。以下、税理士の業務に特に関連するAI機能を抜粋します。

ベンダー	AI機能	注目点
エッサム	生成AI搭載AI-OCR（年末調整・確定申告の控除証明書を自動読み取り→申告に自動反映）	多様な書式の帳票や手書きにも対応。保険料控除申告書の手入力が不要に
円簿	補助金マッチングAI（会計データから入力ゼロで最適補助金を自動提案）、法人化シミュレーションAI	「高機能AIより迷わせないAI」という設計思想。会計・給与の年間合計29,300円(税抜・2025年2月より有償版「円簿PRO」リリース、税理69巻5号112頁)
10book AI（シンアカウンティング）	決算書を生成AIが言語化・分析、チャット形式で深掘り。消費税区分チェック・定期同額給与推移チェック等のレビューをAIが代替	経営者が会計知識なしでも財務分析を理解できるUI
JDL	AI-OCRシステム（証憑書類の読み取り→仕訳自動生成）	導入事務所の事例で仕訳入力8時間→1時間。記帳代行の収益化に貢献
freee	AIファイル自動記帳β(紙証憑→ワンクリック仕訳。業種・業態ルールを事業所ごとに編集可能)	リリース1か月半で数十回のアップデート。ピクチャー・イン・ピクチャー機能で証憑と仕訳帳を同時表示
DONUTS (税理69巻5号122頁)	AI仕訳作成(ジョブカン証憑管理においてAIが証憑内容を読み取り、取引日・金額・取引先のほか取引の性質を解析。過去の学習データと組み合わせて最適仕訳候補を自動生成)	ブラウザ完結型「業界最速」クラウド会計。将来的な自立型AIエージェントの普及を見据えたAPIアーキテクチャ設計を進行中
日本ICS (税理69巻5号126頁)	原票会計S搭載のAI-OCR(領収書・請求書のスキャン→仕訳自動化)。書面添付制度等での推奨文案作成	「生成AIが提案し、税理士が判断する」役割分担を明確化した実務設計。1顧問先あたり年間約84時間の入力・確認工数を削減
マネーフォワード	AIエージェント(経費申請サポート・リース識別)、マネーフォワードAI確定申告(AIネイティブ設計)	「SaaSからSaaS×AIへ」。リース識別エージェントは新リース会計基準(2027年4月から強制適用予定)に対応。マネーフォワードAI確定申告は2025年11月リリースの初のAIネイティブプロダクト(税理69巻5号139頁)
MJS（ミロク情報サービス）	AI監査支援（残高異常検知・仕訳重複・消費税区分等5つのチェック）、経営分析プラス（AIレポート・動画の自動生成）	担当者のレベルに関係なく平準的なチェックを実現。AI音声による読み上げ機能あり
弥生	弥生会計Next（資金分析β版：AIによるキャッシュフロー予測、アイコンで直感的に資金状況を表示）	(王子クラウド会計事務所代表税理士・髙橋徹氏による評価)小規模事業者のBS・PL苦手意識への「入口」として機能。「重要なのは深さではなく入口」(税理69巻5号149頁)
ソリマチ	会計事務所クラウド（会計事務所向けクラウド基盤）	蓄積された7万件超の会計データを基盤にOCR＋AIで仕訳自動化を実現。業務プロセス全体をAIで支える新サービス構想を推進中

出典：税理69巻5号（ぎょうせい、2026年）第3部「各ベンダーの取組状況」108〜151頁の各社記事を基に筆者が整理。

ベンダーのAI機能の全体傾向

各社のAI機能は大きく3つの方向に分類できます。

AI-OCR系（エッサム・JDL・freee・DONUTS・日本ICS・ソリマチ）：証憑の読み取り→仕訳の自動生成。記帳代行の生産性を劇的に向上させる中核機能であり、ベンダー11社中6社がこの領域に主軸を置いている。
AIレビュー・監査系（MJS・10book AI）：仕訳の異常検知・消費税区分チェック・定期同額給与の推移確認など、従来は経験者が目視で行っていたチェックをAIが代替する。
AI経営分析・提案系（弥生・円簿・マネーフォワード）：会計データを基にした資金繰り予測・補助金マッチング・経営アドバイスの自動生成。

大野修平著『これならできる！税理士のための生成AI活用アイディア23選』

大野修平税理士（セブンセンス税理士法人）による本書は、2026年3月に第一法規から刊行されました。税理士業界に特化した生成AIの活用方法を、23の事例とプロンプトで体系的に整理した実務書です。ChatGPT 3.5の登場以来、いち早く生成AIの業務活用に取り組んできた大野氏の3年間の試行錯誤が凝縮されています。

本書は3部構成です。

編	内容
第1編生成AIの基礎知識	LLMの仕組み、ハルシネーションが起こる理由、オプトアウト（学習させない設定）の必要性、事務所内の利用ガイドライン整備
第2編活用アイディア（基本〜発展）	議事録作成、メルマガ作成、税制改正大綱の要約、SWOT分析、ダミーデータ作成、ローカルベンチマーク活用、ヒヤリ・ハット事例からのチェックリスト作成、カスタムGPT、ChatGPTエージェントなど
第3編 ChatGPT以外のサービス	Gemini（引継書作成、レシート動画からの仕訳生成、動画からの手順書作成、様々な形式の会計データからの財務分析など）、NotebookLM（補助金提案）、Genspark（通話代行、AIスライド）

本書の特徴

プロンプトの具体例がそのまま掲載されており、読者がすぐに試せる構成です。税理士業界に特化した生成AIの書籍はまだ少なく、本書はその先駆的な一冊といえます。また、「おわりに」では、人間とAIの役割分担を「課題の発見・設定」「思考・探索」「決定・選択」「実行・具現化」「振り返り・改善」の5段階に分けて整理しており、単なるツール紹介にとどまらない、税理士がAIとどう協働すべきかについての思慮深い考察が含まれています。

大野修平著『これならできる！税理士のための生成AI活用アイディア23選』（第一法規、2026年）

米国の実証研究が示す「生成AIは税務でどう使われているか」

ここまでは日本の事例を中心に見てきましたが、海外ではどうでしょうか。

米国会計学会（AAA）の査読誌 Accounting Horizons に2026年に早期公開された研究（Hunter Aku, Chanyuan Zhang Parker, Clarence W. Stone, “Applications of Generative Artificial Intelligence in Tax Practices: Evidence from Tax Professionals,” DOI: 10.2308/HORIZONS-2025-200）は、税務・税務テクノロジーの専門家18名（うち15名がBig4）への半構造化インタビューに基づき、生成AIが米国の税務実務で実際にどう使われているかを記録しています。

対象がBig4中心であるため知見は大規模・グローバルな税務実務の文脈で解釈すべきもので、サンプル数も限られた質的研究ですが、日本の事例と突き合わせると示唆に富みます。

生成AIは「コパイロット」として使われている

この研究の中心的な発見は、現時点では生成AIが税務専門家の判断を置き換えるものというより、調査・参照・実行を支える「コパイロット（副操縦士）」として使われているという点です。

研究・論点抽出・ワークペーパー作成・申告書作成・申告後対応のいずれの局面でも、最終的な判断・検証・説明責任は税務専門家に残されていました。

論文はその背景として、税務が法令・通達・判例などの根拠に基づいて結論を説明し防御しなければならない、説明責任と防御可能性を重視する領域である点を指摘しています。

具体的な使われ方は、日本の事例と重なる部分が多くあります。

プランニングの局面では、複雑な法令・規則の解釈や、別の課税ポジションを採った場合の影響の「たたき台」づくり（what-if分析）に使われています。

ワークペーパー作成では、試算表のマッピングやデータの正規化といったデータ加工が中心です。申告書作成では、申告書のプレフィルやe-fileのXMLエラーの診断に使われています。

一方で、課税所得計算・税額計算・移転価格関連の調整などの基幹的処理は、検証・監査済みの既存の税務ソフトが担っており、生成AIはそれを置き換えるものとは見なされていません。これは、日本の事例で見た「AI-OCRによる証憑読み取り」「データ変換の自動化」が中心という活用傾向とも、一定の共通性があります（ただし本論文は米国実務を対象としており、日本との比較は筆者による解釈である点に留意してください）。

効率化は「全社的な価値」には転換していない

生成AIによる「税理士代替論」から「AI税務相談」まで、税務分野では様々な議論が先行していますが、現場で実際にどう使われているかを実証的に記録した研究はまだ多くありません。本研究の価値はそこにあります。

日本の事例紹介はどうしても成功例が中心になりますが、この研究はより慎重な像を描いています。専門家はタスクレベルの効率化は認めるものの、それが事務所全体の測定可能な価値に転換したかについては懐疑的でした。

デモではうまく動くが、実際の案件では事案ごと・管轄ごとの差異が大きく、手作業の介在が必要で、規模化が難しいというのです。

論文は、生成AIパイロットの95%が損益に測定可能な影響を生まなかったとするマサチューセッツ工科大学の報告（Estrada 2025）も引いています。もっとも、この数字は税務AIに限定したものではなく、企業における生成AI導入一般に関する報告である点には注意が必要です。

料金への影響も「現時点ではほとんどない」とされています。タイムチャージ（billable-hour）型の事務所では、節約できた時間はより少ない請求時間ではなく、追加の顧客対応に振り向けられるためです。

さらに、トークン課金・インフラ・ライセンス・構築費といった「隠れた導入コスト」が、投資対効果の判断を一層複雑にしているとの指摘もあります。

日本でAI活用の成果を語る際にも、この「タスク効率化」と「事務所経営上の価値」の距離は冷静に区別しておく必要があります。

専門家が挙げるリスク ― 精度・過信・人材育成

専門家が一貫して挙げたリスクは、データの機密性・セキュリティ、そして精度のばらつきです。生成AIは高レベルの要約や文脈把握では有用な一方、税務固有の細部や比較を要するタスクでは精度が落ち、予測しづらいとされました。

論文は引用研究（Antinozzi & Cooper 2025）を挙げ、ChatGPTが基本的な税務質問でも不正確で、複雑さや納税者固有の事情が増すほど精度が下がることに触れています。これは、当事務所が「生成AI・AIチャットボットで税務相談をするリスク」で論じてきた点と整合します。

対処として各事務所は、社内・ローカルモデルの利用、プロンプトの工夫、そして何よりも人間によるレビュー（human-in-the-loop）を重視していました。生成AIの出力は「ジュニアスタッフが作成した下書き」として扱われ、確立されたレビュー階層と承認手続きを経てから顧客向けに使われます。

論文はさらに、若手が出力を鵜呑みにすることによる「スキルの空洞化（deskilling）」への懸念にも触れています。AIが正しい答えを出しても、税務ポジションを評価し弁護できる判断力が育たない、という問題意識です。

雇用への含意（数値の帰属に注意）

論文は、近い将来の大量代替は考えにくいが、定型業務（特に若手の）は自動化が進むとしています。あわせて、PwCが2028年度に税務・保証部門の新人採用を約32%減らす見込みという報道（Thompson 2025）を紹介しています。この「32%」はPwCの計画値に関する報道であって本研究の調査結果ではない点に注意が必要です。なお技術職グループのほうが実務職グループより雇用への悲観が強い、という非対称も報告されています。

この米国研究の含意は、日本の事例とも符合します。すなわち、生成AIは税務の「研究・参照・実行」を支えるが、判断・検証・説明責任は税理士に残る、という構図です。技術の進歩そのものより、事務所が業務と組織文化をどう適応させるかが、生成AI活用の成否を分けると論文は結論づけています。

中国の実証研究 ― 税務特化LLMは一般LLMより税務に強いのか

前節の Accounting Horizons 研究はBig4の専門家への半構造化インタビューに基づく質的研究でしたが、定量的なベンチマーク評価の側でも、興味深い研究が公表されています。

中国の研究グループ（雲南大学・武漢大学等）は2026年4月、税務分野における大規模言語モデルの能力を体系的に評価する「TaxPraBen」を公表しました（Gang Hu et al., “TaxPraBen: A Scalable Benchmark for Structured Evaluation of LLMs in Chinese Real-World Tax Practice,” arXiv:2604.08948v2, 2026年4月22日。査読前プレプリント）。

本研究の対象は中国の税法・税制であり、結論を日本の税務AIにそのまま当てはめることはできません。ただし、「LLMが税務領域で何を得意とし何を苦手とするか」という構造的な発見は、税務AIの設計と評価を考えるうえで示唆に富みます。

本ベンチマークは、14のデータセット・7,300件のインスタンスにわたり、ChatGPT・GPT-4o・Grok3・ERNIE-3.5・DeepSeek-R1・Qwen2.5・GLM4、そして税務データでfine-tuningされたYaYi2（30Bパラメータ）など計19のモデル（ただしClaudeシリーズは含まない）を、知識記憶・知識理解・知識応用の3段階で評価しています。

税務特化fine-tuningは効果が限定的

本研究の発見のうち、税理士業界のAI活用にとって示唆的なものを3つに絞って紹介します。

第一に、税務データでfine-tuningされた専門LLM（YaYi2、30Bパラメータ）が、一部タスクでは、より小規模な一般用途LLMと比べても優位性が限定的だったという発見です。

論文は「税務訓練データの量と多様性の不足、fine-tuning内容と評価タスクのミスマッチ」を理由として挙げ、十分なデータの多様性とタスク整合性がない限り、専門領域fine-tuningでも期待された性能向上が得られない可能性があると総括しています。

専門化そのものが否定されたわけではありませんが、税務データでチューニングしさえすれば一般LLMより税務に強くなる、というほど単純な話ではないことが、ベンチマーク評価から確認されたわけです。

税額計算は最高水準のモデルでも正答率は極めて低い

第二に、税額計算タスク（TaxCalc）は最高水準のモデルでも極めて困難でした。

zero-shot設定の正答率はGrok3で19.0%が最高、ERNIE-3.5で7.6%、GPT-4oで7.0%、ChatGPTで4.6%にとどまり、その他のオープンソースモデルはすべて10%未満です。one-shot設定（例を1件示してから解かせる設定）でも、TaxCalcでは全モデルが極めて低い水準にとどまりました。

論文は、プロンプト長の増大や指示整合性の低下などが原因である可能性を示唆しており、例示によって性能改善が期待されるという一般的傾向が、税務計算タスクではむしろ逆に作用する可能性も指摘されています。

論文は全体として「税務計算は数値演算・論理推論・税務規則の適用が複合する要求であり、最先端モデルでも複雑な税務計画計算では失敗する」と総括しています。

前節の Accounting Horizons 研究で「基幹的な税額計算は既存の税務ソフトに委ね、生成AIには委ねない」という米国Big4の実務的判断が紹介されていましたが、その判断はベンチマーク評価の側からも裏付けられているといえます。

構造化抽出ではモデル間の性能差が大きい

第三に、税務調査事例から「犯罪行為」「罪名」「処罰結果」をJSON形式で構造化抽出するタスク（TaxInspect）では、クローズドソースの大規模モデルや、一部のオープンソース（GLM4、DeepSeek-R1）は比較的高い性能を示した一方、多くのオープンソースモデルでは、構造化抽出に失敗して背景情報をそのまま出力する傾向、または背景情報を目的のフィールドに誤って詰め込む現象が観察されました。

AI-OCRやAIレビューが税理士事務所で実装されつつある現状において、構造化抽出能力にはモデル間で大きな差がある点は、ツール選定の重要な視点といえます。

本研究は中国の税法・税制を対象とした査読前プレプリントであり、結論をそのまま日本の税務AIに当てはめることはできません。ベンチマーク自体も研究者の設計によるもので、実際の税務専門家による業務品質評価との対応関係は、論文自身が今後の検証課題としています。ただし、(1) 税務特化fine-tuningが必ずしも一般LLMを安定的に上回るわけではない、(2) 税額計算は最先端モデルでも極めて困難、(3) 構造化抽出にはモデル間で大きな性能差がある、という3点は、税理士事務所がAIツールを選定・評価する際の有力な参照軸になります。

実務家の発信から ― 「判定はAI、承認は人間」という線引き

学術研究やベンダー資料だけでなく、実務家自身の発信からも同じ構図が浮かびます。公認会計士・税理士の畠山謙人氏は、X（旧Twitter）上で、Claude Codeを用いてスタッフを置かずに多数の顧問先の記帳・仕訳を自動処理している運用を詳細に公開しています。毎晩定時に未処理明細を自動仕訳し、勘定科目をキーワード辞書とAIの二段階で判定する、といった具体的な仕組みです。

ここで注目すべきは、派手な効率化の数字そのものより、畠山氏自身が繰り返し強調している但し書きです。

同氏はX上で、確定申告へのAI活用について「精度は上がったが、消費税区分（軽減8%と標準10%の判定）はまだ苦手」「医療費控除では保険金で補填された金額の控除漏れが頻発し、これは税務調査で最も指摘されるポイント」「全自動にした瞬間に源泉徴収の計算ミスが起きる」と具体的に指摘し、「入力の自動化はAI、判断の最終責任は人間」「AIは作業を消してくれるが判断は消せない」と結論づけています。

同氏の運用も「毎晩AIが自動処理し、翌朝に税理士が全社をチェックする」という、AIの判定と人間の承認を分けるフローを前提としています。

これはX上の実務家個人の発信であり、雑誌掲載事例や査読論文のように編集・査読を経た情報ではないため、数値はあくまで本人の自己申告として読む必要があります。

とはいえ、その線引き――どこまでをAIに任せ、どこからを税理士が見るか――を実務知識に基づいて引いている点は、本記事がここまで見てきた『税理』掲載事例の方針とも、Accounting Horizons の研究が描いた「コパイロットとしての生成AI」とも、正確に一致します。

情報源の格を問わず同じ結論に収斂していること自体が、この構図の頑健さを示しています。

まとめ

本記事で紹介した事例・製品・研究を俯瞰すると、税理士業界のAI活用は以下の3つの段階が同時並行で進んでいることがわかります。

税理士業界のAI活用の3段階

（1）入力作業の自動化：AI-OCRによる証憑読み取り→仕訳生成（JDL・エッサム・freee）。
（2）チェック・レビューの自動化：AIによる仕訳監査・消費税区分チェック（MJS・10book AI）。
（3）判断・提案の補助:経営分析・補助金マッチング・ナレッジ検索（弥生・円簿・アイユー）。

（1）と（2）は「人間がやっていた作業をAIが代替する」段階です。（3）は「人間が気づかなかった視点をAIが提示する」段階であり、ここに税理士の付加価値が生まれる余地があります。

日本の事例も米国の実証研究も、共通して同じ結論を指しています。すなわち、いずれの段階においても、最終的な判断は税理士が担うという点です。

生成AIは「コパイロット」であって自律的な意思決定者ではなく、税務の権威依存的・高説明責任的な性質がそれを要請しています。この点については、拙稿「生成AIの普及により変容する税理士の役割─税務判断過程のガバナンスとZeirishi-in-the-Loop─」税理69巻5号4頁、および「Zeirishi-in-the-Loop」もあわせてご参照ください。

AIに「作業」を委ね、「判断」を人間が握る――この線引きを実務知識に基づいて引けるかどうかが、税理士業界のAI活用の成否を分ける核心だといえます。

本記事は概要です。今後、書籍・雑誌記事・セミナーにおいて、詳細な解説や税理士向けの実務上の注意点についても取り上げる予定です。

出典:『税理』69巻5号（2026年4月臨時増刊号、ぎょうせい）／大野修平著『これならできる！税理士のための生成AI活用アイディア23選』（第一法規、2026年）／Hunter Aku, Chanyuan Zhang Parker, Clarence W. Stone, “Applications of Generative Artificial Intelligence in Tax Practices: Evidence from Tax Professionals,” Accounting Horizons (Early Access, 2026), DOI: 10.2308/HORIZONS-2025-200, American Accounting Association. https://doi.org/10.2308/HORIZONS-2025-200 ／論文ページ：https://publications.aaahq.org/accounting-horizons/article/doi/10.2308/HORIZONS-2025-200/24114/ ／ Gang Hu et al., “TaxPraBen: A Scalable Benchmark for Structured Evaluation of LLMs in Chinese Real-World Tax Practice,” arXiv:2604.08948v2 (2026年4月22日、査読前プレプリント). https://arxiv.org/abs/2604.08948

AI×税務の研修・セミナーをお探しですか

泉絢也（東洋大学法学部教授・税理士・元国税調査官）が、AI時代の税務行政・税務調査の最新動向について研修講師を承ります。税理士会・企業・金融機関向け。

研修講師のご依頼／お問い合わせ