Snapdragon X NPUでローカルLLM爆速化：VSCode Continue×Foundry LocalによるWindows AI開発

2026年4月17日2026年5月2日

当ページのリンクには広告が含まれています。

IT女子アラ美

🚀 Windows AI環境を構築できる人材、評価されてない？
希少なNPU実装スキルを武器にハイクラス転職を狙うならAI人材特化エージェントに登録しなさい
ITエンジニアのハイクラス転職なら【TechGo（テックゴー）】

この記事の結論

Snapdragon X搭載のCopilot+ PCなら、Microsoft Foundry LocalとVSCode ContinueでNPUを活用したローカルLLM環境を構築できます。インストール、ONNXモデル選定、Continue接続、トラブル対処までWindows完結の手順を実機検証ベースで解説します。

お疲れ様です！IT業界で働くアライグマです！

「Windows搭載のCopilot+ PCを買ったけど、NPUを実際にどう活用すればよいかわからない」「MacのMLXは情報が豊富だが、Windows ARM側の実例が少なくて困っている」。こうした悩みを抱えているWindowsエンジニアに、2026年現在ひとつの答えが出てきました。Microsoft Foundry LocalとVSCode拡張のContinueを組み合わせれば、Snapdragon X NPUをローカルLLM推論で活用できる開発環境が、コマンド数本で構築できます。本記事では、その具体的な手順とつまずきポイントをハンズオン形式で解説します。

Snapdragon X NPU開発が今ホットな理由とWindows ARM環境の全体像

IT女子アラ美

💡 自宅PCの限界でAI開発が止まってない？
リモート開発向けクラウドPCを最短即日で借りられるサービスでGPU不足の悩みを解消しなさい
いつでもどこでもクラウド上PCにアクセス！仮想デスクトップサービス【XServer クラウドPC】

2024年後半からMicrosoftが推進している「Copilot+ PC」のうち、QualcommのSnapdragon Xシリーズを搭載したARM版WindowsノートPCが2026年現在、エンジニア界隈で再評価されています。理由はNPU（Neural Processing Unit）が実用レベルのローカル推論に使えるようになったことです。

具体的に解決される課題は次の通りです。

クラウドAPI課金からの脱却：日常的なコード補完・要約タスクを、ローカルNPUに逃がすことで月数千円〜数万円のAPI費用を削減できる
機密データを外部に出さない開発：社内コードや顧客情報を含むコードレビューを、外部に送信せずローカルで完結できる
オフライン環境での生産性：ネット接続がない場所でもLLM支援を受けられ、出張・移動中でも開発が止まらない
バッテリー寿命の最適化：CPUやGPUより消費電力が低いNPUを使うため、バッテリー駆動時間がほぼそのまま伸びる

Mac勢は Apple Silicon + MLX の組み合わせで早くからローカルAI実装が進んでいましたが、Windows ARM側はツールの対応が追いついておらず長らく出遅れていました。それが2025年〜2026年にかけてMicrosoftのFoundry LocalとAI Toolkit for VS Codeのリリース、そしてQualcomm AI Hub経由でのNPU最適化ONNXモデル配布が整い、ようやく実用段階に入りました。MacのオンデバイスAI開発手法を知っておきたい方は、Apple Intelligence Python SDKでオンデバイスAI開発する完全ガイドと比較すると、両プラットフォームの違いがクリアに見えてきます。

IT女子アラ美

Mac勢ばっかりキラキラしてて、Windows ARMユーザーは置いてけぼりだったんだよね…。

ITアライグマ

ようやくその時代が終わりました。NPUを使い倒せる環境が整ったので、Windows勢の逆襲フェーズに入りますよ。

導入前に揃えておきたい前提条件と動作環境

本記事の手順を再現するには、Snapdragon XシリーズNPU搭載のWindows ARMマシンと、Microsoftの公式ツール群が必要です。順番に確認していきましょう。

ハードウェア：Snapdragon X Elite または X Plus 搭載のCopilot+ PC（Surface Laptop 7、HP EliteBook、Lenovo Yoga Slim 7x など）
OS：Windows 11 Home / Pro 25H2 以上（NPUランタイムの互換性のため最新版が安全）
Foundry Local：Microsoft公式のローカルLLM実行ツール。Windows版のみNPUに対応（Mac版はCPUのみ）
Visual Studio Code：最新版（ARM64ネイティブビルド推奨）
Continue 拡張：VS CodeのMarketplaceから無料インストール可能なAIコーディングアシスタント

特に重要な注意点として、Snapdragon X NPUはONNX形式の専用モデルしか実行できません。Mac/LinuxでよくあるGGUF（llama.cpp系）形式のモデルはNPUに載らず、Foundry Local上ではCPUにフォールバックする挙動になります。そのため、Qualcomm AI Hubが配布するNPU最適化ONNXモデルを使うことが最重要ポイントになります。Mac側のMLXもMac専用フォーマットなので、ONNXとは別世界です。

ローカルLLM環境構築の全体像をまだ把握していない方は、ローカルLLM構築の完全ガイドでツール選定の前提を押さえてから本記事に戻ると、各コンポーネントの位置付けが理解しやすくなります。

IT女子アラ美

GGUFが動かないって地味にハマるやつでしょ…。Mac勢のチュートリアルそのまま真似したら詰むやつ。

ITアライグマ

まさにそれです。Snapdragon NPUはONNX一択、これだけ覚えておけば最初の1時間が無駄にならないですよ。

ステップ1：Foundry Localのインストールとモデル準備

最初のステップは Microsoft Foundry Local のインストールです。winget からのインストールが公式手順で、追加のランタイムや依存関係を意識する必要はほぼありません。

Foundry Localのインストール

PowerShell またはターミナルを開いて、次のコマンドを実行します。


# Foundry Localの公式インストール
winget install Microsoft.FoundryLocal

# インストール確認
foundry --version

インストールが完了すると、foundry コマンドがPATHに通った状態になります。Windows 11 25H2 未満ではNPUランタイムが正しく解決されない事例が報告されているため、OSが古い場合は事前に Windows Update を完走させておきましょう。

NPU対応モデルの取得

次にNPUで動作するモデルを取得します。Foundry Localは内部でモデルカタログを持っており、foundry model list で利用可能なモデルを一覧表示できます。


# 利用可能なモデル一覧を確認
foundry model list

# Qwen2.5 7B のNPU最適化版を取得して起動
foundry model run qwen2.5-7b

# サービス状態の確認
foundry service status

ここで重要なのは、モデル名の末尾に qnn や qnn-npu が付くものが Snapdragon NPU に最適化されたONNX版だという点です。実機検証では qwen2.5-7b-instruct-qnn-npu:2 のような完全修飾IDを使うのが最も確実で、汎用名だけだとCPUフォールバックになることがあります。

サービス起動後は、Foundry Local が OpenAI互換のAPIエンドポイントを localhost に立ち上げます。デフォルトのポートはバージョンによって変わるため、foundry service status で実際のURLを確認しておきましょう（例: http://127.0.0.1:63067/v1）。

VS Code側のセットアップ全般は、Claude Code AIエージェントによるコーディング自動化ガイドで解説しているエディタ統合の考え方がそのまま参考になります。OpenAI互換APIに対応したクライアントなら、Foundry Localのエンドポイントを差し込むだけで動かせるという発想が共通です。

IT女子アラ美

wingetで一発ってマジ？昔のAI環境構築の地獄を思うとシンプルすぎて怖いんだけど。

ITアライグマ

Microsoftが本気を出した結果ですね。インストールで詰まるのはもう過去の話になりました。

ステップ2：VSCode Continue拡張をFoundry Localに接続する

Foundry LocalがOpenAI互換APIで動いている前提で、VSCode拡張のContinueから接続します。Continueは無料のオープンソースAIコーディングアシスタントで、複数のLLMバックエンドを切り替えながら使えるのが強みです。

Continue拡張のインストール

VS Codeを開き、Marketplaceで「Continue」を検索してインストールします。インストール後はサイドバーにContinueのアイコンが追加され、設定ファイルを編集する準備が整います。

config.ymlにFoundry Localの接続設定を追加

Continueの設定ファイルは %USERPROFILE%\.continue\config.yml に置かれます。エクスプローラーで開くか、VS Codeの「ファイルを開く」から直接編集します。Foundry Localを既存設定に追加するには、models: セクションに次のようなブロックを追記します。


models:
  - name: Foundry Local (NPU)
    provider: openai
    model: qwen2.5-7b-instruct-qnn-npu:2
    apiBase: http://127.0.0.1:63067/v1
    apiKey: dummy

ポイントは次の3点です。

provider は openai を指定：Foundry LocalがOpenAI互換APIを提供しているため、特別なドライバは不要
model は完全修飾ID：qwen2.5-7b-instruct-qnn-npu:2 のように Foundry の正式名を指定。汎用名だけだと「400 Bad Request」が返る既知の挙動あり
apiBase は foundry service status で確認した実際のURL：ポート番号はバージョン依存なので、勝手に決め打ちしない

設定保存後、VS CodeのContinueサイドバーから「Foundry Local (NPU)」を選択して、コードの説明やリファクタ依頼を投げてみてください。NPUで推論が走っているかは、Windowsのタスクマネージャーで「NPU」グラフが立ち上がるかで確認できます。

実機検証では、Foundry Local + Snapdragon X Plus + Qwen2.5 7B のNPU推論速度が「Gemini CLIの1.2倍程度」という報告もあり、ローカル実行としては十分実用的なレベルです。Continueから単発のコード補完や要約をする用途なら、クラウドAPIを使わなくても作業のリズムを崩さずに済みます。発展的にローカルAIエージェントを組みたい場合は、OllamaとCrewAIで構築するローカルAIエージェント実践ガイドのマルチエージェント設計がそのまま応用できます（CrewAIもOpenAI互換APIに対応しているため、Foundry Localをバックエンドにできます）。

IT女子アラ美

タスクマネージャーのNPUグラフがピコピコ動くの、初めて見たら絶対興奮するやつ。

ITアライグマ

わかります。「ちゃんと動いてる」が目で見えると、ローカルAIが急に身近に感じますよ。

ケーススタディ：Snapdragon NPU環境でAPIコストをほぼゼロにした実例

IT女子アラ美

💡 Windows×AI環境を主導できる立場に興味ない？
ツール選定の裁量を持ちたいなら社内SE特化エージェントに無料相談してみなさい
社内SEを目指す方必見！IT・Webエンジニアの転職なら【社内SE転職ナビ】

吉村さん（仮名・36歳・社内SE・経験11年）が、業務貸与のSurface Laptop 7（Snapdragon X Plus搭載）にFoundry Local + Continue環境を構築し、社内開発の生産性とコストを同時に改善した事例を紹介します。

状況（Before）

吉村さんの所属する社内SE組織では、社員ごとに月額のクラウドLLM API予算が振られていましたが、利用実態に対して予算が足りずに次のような問題が起きていました。

API予算の月中枯渇：月初に勢いよく使うと月末1週間は実質使えず、生産性が落ちる
機密コードを外部送信できないルール：顧客プロジェクトのコードはAPI送信禁止で、AIの恩恵をほぼ受けられなかった
移動中・出張先で詰む：オフラインだとAI支援がゼロになり、作業の効率が体感3割落ちる
NPU搭載端末を貸与されているのにフル活用できていない：Surface Laptop 7のNPUが「ただのスペック表の数字」状態だった

行動（Action）

吉村さんは「日常タスクはローカルNPU、複雑な思考はクラウドAPI」という二段構えのワークフローを設計しました。

Foundry LocalとContinueを業務PCに導入：本記事の手順通り winget でセットアップし、qwen2.5-7b-instruct-qnn-npu:2 をデフォルトモデルに指定
Continueの設定を「Local NPU」と「Cloud API」の2モデル併存に：日常的なコード補完・要約・命名相談はNPU、大規模リファクタや設計提案はクラウドAPIに振り分け
機密コードはローカル限定ルールを明文化：顧客コードを開いている間は強制的にローカルNPUモデルに切り替えるVS Codeのワークスペース設定を作成
同僚にも展開：手順をWikiに残し、希望者にライブインストールをサポート。1ヶ月で5名が同じ構成に移行

結果（After）

導入から3ヶ月後、明確な改善が見られました。

個人のクラウドLLM API費用：月8,000円 → 月2,000円程度（75%削減）
機密コードに対するAI活用：実質ゼロ → 日常的に使える状態に。コードレビューとリファクタの効率が体感30〜40%向上
オフライン環境での作業継続性：移動中・出張先でも同等の支援を受けられるようになり、出張中の生産性低下が解消
同僚展開：1ヶ月で5名 → 3ヶ月で15名に拡大。社内のAI活用文化が一段進む

吉村さんは振り返ります。「Snapdragon NPUは『買ったけど使い道がわからない』という声をよく聞きますが、Foundry LocalとContinueがあれば普通の社内SEでも実用環境が組めることを実感しました。社内ツール選定の裁量を持っていたから自分で導入して試せたのが大きく、その経験自体が次のキャリアの武器になっています」。社内ツールの選定権限を持てる立場のメリットは、ハイクラスエンジニア転職エージェント3社比較ガイドでも触れられているように、転職市場での評価軸として年々重視されています。

IT女子アラ美

社内SEで導入の裁量があると、こういう新しい環境試せるのほんとデカいよね。

ITアライグマ

ですね。同じスキルでも「自分で選んで導入できる立場かどうか」で経験の質が大きく変わります。

運用時のトラブル対処と発展的な活用

導入後に必ず遭遇する詰まりポイントと、その先の発展的な使い方を紹介します。事前に把握しておけば、現場投入時に手が止まりません。

よくある4つのトラブルと対処法

モデル指定で「400 Bad Request」が返る：config.yml の model: に汎用名（例: qwen2.5）だけ書くと発生。foundry model list で表示される正式なModel ID（例: qwen2.5-7b-instruct-qnn-npu:2）をそのまま指定する
NPUではなくCPUで動いてしまう：モデル名に qnn または qnn-npu サフィックスが付いていない場合、ONNX非NPU版がロードされCPUにフォールバックする。タスクマネージャーのNPUグラフが反応しなければ、まずモデル選定を疑う
レスポンスに中国語が混入する：Qwen系モデルの既知のクセで、日本語プロンプトに対して時折中国語のトークンが出力される。プロンプト末尾に「日本語で回答」と明示するか、別モデルを試す
サービスが起動しない・ポートが変わる：Foundry Localはバージョンによりデフォルトポートが変わるため、勝手な決め打ちは禁物。必ず foundry service status で実際のエンドポイントURLを確認してから Continue の apiBase を設定する

発展的な活用：マルチモデル運用とクラウド併用

Continueは config.yml の models: 配列に複数のモデルを並べておけば、サイドバーから瞬時に切り替えられます。日常タスクはNPUモデル、難易度の高いリファクタはクラウドAPI（Anthropic / OpenAI / Google）と使い分けるのが現実的です。


models:
  - name: Foundry Local (NPU)
    provider: openai
    model: qwen2.5-7b-instruct-qnn-npu:2
    apiBase: http://127.0.0.1:63067/v1
    apiKey: dummy
  - name: Claude (Cloud)
    provider: anthropic
    model: claude-sonnet-4-5-20250929
    apiKey: dummy-replace-with-env

ローカル完結環境がどうしても性能不足な場合は、エンジニア向けXServer用途別比較ガイドで紹介しているリモート開発向けクラウドPCを併用するのも有効です。手元のSnapdragon端末で日常タスク、リモート環境で重い学習やバッチ推論、という二段運用が現実的な落とし所になります。

IT女子アラ美

中国語混入バグ、初見だと「壊れた！？」って一瞬パニックになるやつでしょ。

ITアライグマ

あるあるです。仕様だと知ってるだけで動揺せずに済むので、覚えておく価値ありますよ。

よくある質問

Q. Snapdragon X以外のCopilot+ PCでも同じ手順で動きますか？

Intel Core Ultra系・AMD Ryzen AI系のCopilot+ PCでも、Foundry Local自体は動作しますが、NPU活用にはチップごとの専用ONNXモデルが必要です。Snapdragon用の qnn 系モデルは他チップでは動かないため、各社が配布するNPU最適化モデルを別途取得する必要があります。Foundry LocalはCPUフォールバックも可能なので、まずは標準モデルで動作確認し、その後NPU最適化モデルに切り替えるのが安全です。

Q. macOSやLinuxでは使えませんか？

Foundry Local 自体はMac版もありますが、Mac版はCPU実行のみで、Apple SiliconのGPU/Neural Engineには対応していません。LinuxはWSL経由でも公式サポート外です。Mac勢でローカルAIを本気でやりたい場合は、Apple純正のMLXフレームワークや Ollama + GGUF の組み合わせの方が情報量も実用度も高いです。

Q. Foundry LocalはClaude CodeやCursorからも使えますか？

Foundry LocalのエンドポイントはOpenAI互換APIなので、Cursor・Claude Code・OpenWebUIなど、OpenAI互換クライアントなら基本的にすべて接続可能です。Cursorなら設定の「OpenAI API Key」項目で apiBase を Foundry Localのエンドポイントに変えるだけで動きます。Continueに限らず、自分の好きなクライアントを選べるのが強みです。

Q. NPUの温度上昇やバッテリー消費は大丈夫ですか？

NPUはCPU・GPUと比べて消費電力と発熱が圧倒的に低いのが最大の強みです。実機検証では、長時間の推論を続けてもバッテリー駆動時間が大きく削られることは少なく、ファンが回ることもほぼありません。Snapdragon X Plus搭載端末で推論を回し続けても、CPU/GPUを使った場合と比べてバッテリー寿命が体感1.5倍以上長く感じられます。

本記事で解説したようなAI技術を、基礎から体系的に身につけたい方は、以下のスクールも検討してみてください。

比較項目	Winスクール	Aidemy Premium
目的・ゴール	資格取得・スキルアップ初心者〜社会人向け	エンジニア転身・E資格Python/AI開発
難易度	初心者◎個人レッスン形式	中級者〜コード記述あり
補助金・給付金	最大70%還元教育訓練給付金対象	最大70%還元教育訓練給付金対象
おすすめ度	S幅広くITスキルを学ぶなら	AAIエンジニアになるなら
公式サイト	詳細を見る	−

IT女子アラ美

AIスキルを身につけたいけど、どのスクールを選べばいいかわからないです…

ITアライグマ

現場で即・ITスキルを身につけたいならWinスクールがおすすめです！個人レッスン形式で初心者でも取り組みやすいですよ。

まとめ

Snapdragon X NPUを実用的に活用する道は、2026年現在Microsoft Foundry Localの登場で一気に現実的になりました。Mac勢のMLXに比べて遅れていたWindows ARM環境が、ようやく「ローカル推論を業務で回せる」段階まで追いついた格好です。

Foundry Local + Continue が決定版：winget で導入し、OpenAI互換APIでContinueから呼び出すだけで動く
ONNX形式の qnn-npu 系モデルを必ず指定：GGUFは動かない、汎用名はCPUフォールバックを招く
config.ymlのmodelは完全修飾IDで書く：foundry model list で確認した正式名をそのまま貼る
クラウドAPIとの二段構えが実用的：日常タスクはNPU、難所はクラウド、機密はローカル限定でルール化
NPU活用のキャリア価値：Windows ARM × ローカルLLMの実装経験は希少で、社内SE・AI人材市場の評価軸として機能する

Snapdragon X搭載のCopilot+ PCを持っているのに「NPUは飾り」だと感じている方は、まず本記事の手順で Foundry Local をインストールし、foundry model run でNPU推論が動く感覚を体験してみてください。動いた瞬間にWindows ARM環境への見方が変わり、Mac勢への羨望を卒業できる実感が手に入ります。