IT女子 アラ美希少なNPU実装スキルを武器にハイクラス転職を狙うならAI人材特化エージェントに登録しなさい
ITエンジニアのハイクラス転職なら【TechGo(テックゴー)】
お疲れ様です!IT業界で働くアライグマです!
「Windows搭載のCopilot+ PCを買ったけど、NPUを実際にどう活用すればよいかわからない」「MacのMLXは情報が豊富だが、Windows ARM側の実例が少なくて困っている」。こうした悩みを抱えているWindowsエンジニアに、2026年現在ひとつの答えが出てきました。Microsoft Foundry LocalとVSCode拡張のContinueを組み合わせれば、Snapdragon X NPUをローカルLLM推論で活用できる開発環境が、コマンド数本で構築できます。本記事では、その具体的な手順とつまずきポイントをハンズオン形式で解説します。
Snapdragon X NPU開発が今ホットな理由とWindows ARM環境の全体像



リモート開発向けクラウドPCを最短即日で借りられるサービスでGPU不足の悩みを解消しなさい
いつでもどこでもクラウド上PCにアクセス!仮想デスクトップサービス【XServer クラウドPC】
2024年後半からMicrosoftが推進している「Copilot+ PC」のうち、QualcommのSnapdragon Xシリーズを搭載したARM版WindowsノートPCが2026年現在、エンジニア界隈で再評価されています。理由はNPU(Neural Processing Unit)が実用レベルのローカル推論に使えるようになったことです。
具体的に解決される課題は次の通りです。
- クラウドAPI課金からの脱却:日常的なコード補完・要約タスクを、ローカルNPUに逃がすことで月数千円〜数万円のAPI費用を削減できる
- 機密データを外部に出さない開発:社内コードや顧客情報を含むコードレビューを、外部に送信せずローカルで完結できる
- オフライン環境での生産性:ネット接続がない場所でもLLM支援を受けられ、出張・移動中でも開発が止まらない
- バッテリー寿命の最適化:CPUやGPUより消費電力が低いNPUを使うため、バッテリー駆動時間がほぼそのまま伸びる
Mac勢は Apple Silicon + MLX の組み合わせで早くからローカルAI実装が進んでいましたが、Windows ARM側はツールの対応が追いついておらず長らく出遅れていました。それが2025年〜2026年にかけてMicrosoftのFoundry LocalとAI Toolkit for VS Codeのリリース、そしてQualcomm AI Hub経由でのNPU最適化ONNXモデル配布が整い、ようやく実用段階に入りました。MacのオンデバイスAI開発手法を知っておきたい方は、Apple Intelligence Python SDKでオンデバイスAI開発する完全ガイドと比較すると、両プラットフォームの違いがクリアに見えてきます。



導入前に揃えておきたい前提条件と動作環境
本記事の手順を再現するには、Snapdragon XシリーズNPU搭載のWindows ARMマシンと、Microsoftの公式ツール群が必要です。順番に確認していきましょう。
- ハードウェア:Snapdragon X Elite または X Plus 搭載のCopilot+ PC(Surface Laptop 7、HP EliteBook、Lenovo Yoga Slim 7x など)
- OS:Windows 11 Home / Pro 25H2 以上(NPUランタイムの互換性のため最新版が安全)
- Foundry Local:Microsoft公式のローカルLLM実行ツール。Windows版のみNPUに対応(Mac版はCPUのみ)
- Visual Studio Code:最新版(ARM64ネイティブビルド推奨)
- Continue 拡張:VS CodeのMarketplaceから無料インストール可能なAIコーディングアシスタント
特に重要な注意点として、Snapdragon X NPUはONNX形式の専用モデルしか実行できません。Mac/LinuxでよくあるGGUF(llama.cpp系)形式のモデルはNPUに載らず、Foundry Local上ではCPUにフォールバックする挙動になります。そのため、Qualcomm AI Hubが配布するNPU最適化ONNXモデルを使うことが最重要ポイントになります。Mac側のMLXもMac専用フォーマットなので、ONNXとは別世界です。
ローカルLLM環境構築の全体像をまだ把握していない方は、ローカルLLM構築の完全ガイドでツール選定の前提を押さえてから本記事に戻ると、各コンポーネントの位置付けが理解しやすくなります。



ステップ1:Foundry Localのインストールとモデル準備
最初のステップは Microsoft Foundry Local のインストールです。winget からのインストールが公式手順で、追加のランタイムや依存関係を意識する必要はほぼありません。
Foundry Localのインストール
PowerShell またはターミナルを開いて、次のコマンドを実行します。
# Foundry Localの公式インストール
winget install Microsoft.FoundryLocal
# インストール確認
foundry --version
インストールが完了すると、foundry コマンドがPATHに通った状態になります。Windows 11 25H2 未満ではNPUランタイムが正しく解決されない事例が報告されているため、OSが古い場合は事前に Windows Update を完走させておきましょう。
NPU対応モデルの取得
次にNPUで動作するモデルを取得します。Foundry Localは内部でモデルカタログを持っており、foundry model list で利用可能なモデルを一覧表示できます。
# 利用可能なモデル一覧を確認
foundry model list
# Qwen2.5 7B のNPU最適化版を取得して起動
foundry model run qwen2.5-7b
# サービス状態の確認
foundry service status
ここで重要なのは、モデル名の末尾に qnn や qnn-npu が付くものが Snapdragon NPU に最適化されたONNX版だという点です。実機検証では qwen2.5-7b-instruct-qnn-npu:2 のような完全修飾IDを使うのが最も確実で、汎用名だけだとCPUフォールバックになることがあります。
サービス起動後は、Foundry Local が OpenAI互換のAPIエンドポイントを localhost に立ち上げます。デフォルトのポートはバージョンによって変わるため、foundry service status で実際のURLを確認しておきましょう(例: http://127.0.0.1:63067/v1)。
VS Code側のセットアップ全般は、Claude Code AIエージェントによるコーディング自動化ガイドで解説しているエディタ統合の考え方がそのまま参考になります。OpenAI互換APIに対応したクライアントなら、Foundry Localのエンドポイントを差し込むだけで動かせるという発想が共通です。



ステップ2:VSCode Continue拡張をFoundry Localに接続する
Foundry LocalがOpenAI互換APIで動いている前提で、VSCode拡張のContinueから接続します。Continueは無料のオープンソースAIコーディングアシスタントで、複数のLLMバックエンドを切り替えながら使えるのが強みです。
Continue拡張のインストール
VS Codeを開き、Marketplaceで「Continue」を検索してインストールします。インストール後はサイドバーにContinueのアイコンが追加され、設定ファイルを編集する準備が整います。
config.ymlにFoundry Localの接続設定を追加
Continueの設定ファイルは %USERPROFILE%\.continue\config.yml に置かれます。エクスプローラーで開くか、VS Codeの「ファイルを開く」から直接編集します。Foundry Localを既存設定に追加するには、models: セクションに次のようなブロックを追記します。
models:
- name: Foundry Local (NPU)
provider: openai
model: qwen2.5-7b-instruct-qnn-npu:2
apiBase: http://127.0.0.1:63067/v1
apiKey: dummy
ポイントは次の3点です。
- provider は openai を指定:Foundry LocalがOpenAI互換APIを提供しているため、特別なドライバは不要
- model は完全修飾ID:
qwen2.5-7b-instruct-qnn-npu:2のように Foundry の正式名を指定。汎用名だけだと「400 Bad Request」が返る既知の挙動あり - apiBase は foundry service status で確認した実際のURL:ポート番号はバージョン依存なので、勝手に決め打ちしない
設定保存後、VS CodeのContinueサイドバーから「Foundry Local (NPU)」を選択して、コードの説明やリファクタ依頼を投げてみてください。NPUで推論が走っているかは、Windowsのタスクマネージャーで「NPU」グラフが立ち上がるかで確認できます。
実機検証では、Foundry Local + Snapdragon X Plus + Qwen2.5 7B のNPU推論速度が「Gemini CLIの1.2倍程度」という報告もあり、ローカル実行としては十分実用的なレベルです。Continueから単発のコード補完や要約をする用途なら、クラウドAPIを使わなくても作業のリズムを崩さずに済みます。発展的にローカルAIエージェントを組みたい場合は、OllamaとCrewAIで構築するローカルAIエージェント実践ガイドのマルチエージェント設計がそのまま応用できます(CrewAIもOpenAI互換APIに対応しているため、Foundry Localをバックエンドにできます)。



ケーススタディ:Snapdragon NPU環境でAPIコストをほぼゼロにした実例



ツール選定の裁量を持ちたいなら社内SE特化エージェントに無料相談してみなさい
社内SEを目指す方必見!IT・Webエンジニアの転職なら【社内SE転職ナビ】
吉村さん(仮名・36歳・社内SE・経験11年)が、業務貸与のSurface Laptop 7(Snapdragon X Plus搭載)にFoundry Local + Continue環境を構築し、社内開発の生産性とコストを同時に改善した事例を紹介します。
状況(Before)
吉村さんの所属する社内SE組織では、社員ごとに月額のクラウドLLM API予算が振られていましたが、利用実態に対して予算が足りずに次のような問題が起きていました。
- API予算の月中枯渇:月初に勢いよく使うと月末1週間は実質使えず、生産性が落ちる
- 機密コードを外部送信できないルール:顧客プロジェクトのコードはAPI送信禁止で、AIの恩恵をほぼ受けられなかった
- 移動中・出張先で詰む:オフラインだとAI支援がゼロになり、作業の効率が体感3割落ちる
- NPU搭載端末を貸与されているのにフル活用できていない:Surface Laptop 7のNPUが「ただのスペック表の数字」状態だった
行動(Action)
吉村さんは「日常タスクはローカルNPU、複雑な思考はクラウドAPI」という二段構えのワークフローを設計しました。
- Foundry LocalとContinueを業務PCに導入:本記事の手順通り winget でセットアップし、qwen2.5-7b-instruct-qnn-npu:2 をデフォルトモデルに指定
- Continueの設定を「Local NPU」と「Cloud API」の2モデル併存に:日常的なコード補完・要約・命名相談はNPU、大規模リファクタや設計提案はクラウドAPIに振り分け
- 機密コードはローカル限定ルールを明文化:顧客コードを開いている間は強制的にローカルNPUモデルに切り替えるVS Codeのワークスペース設定を作成
- 同僚にも展開:手順をWikiに残し、希望者にライブインストールをサポート。1ヶ月で5名が同じ構成に移行
結果(After)
導入から3ヶ月後、明確な改善が見られました。
- 個人のクラウドLLM API費用:月8,000円 → 月2,000円程度(75%削減)
- 機密コードに対するAI活用:実質ゼロ → 日常的に使える状態に。コードレビューとリファクタの効率が体感30〜40%向上
- オフライン環境での作業継続性:移動中・出張先でも同等の支援を受けられるようになり、出張中の生産性低下が解消
- 同僚展開:1ヶ月で5名 → 3ヶ月で15名に拡大。社内のAI活用文化が一段進む
吉村さんは振り返ります。「Snapdragon NPUは『買ったけど使い道がわからない』という声をよく聞きますが、Foundry LocalとContinueがあれば普通の社内SEでも実用環境が組めることを実感しました。社内ツール選定の裁量を持っていたから自分で導入して試せたのが大きく、その経験自体が次のキャリアの武器になっています」。社内ツールの選定権限を持てる立場のメリットは、ハイクラスエンジニア転職エージェント3社比較ガイドでも触れられているように、転職市場での評価軸として年々重視されています。



運用時のトラブル対処と発展的な活用
導入後に必ず遭遇する詰まりポイントと、その先の発展的な使い方を紹介します。事前に把握しておけば、現場投入時に手が止まりません。
よくある4つのトラブルと対処法
- モデル指定で「400 Bad Request」が返る:
config.ymlのmodel:に汎用名(例:qwen2.5)だけ書くと発生。foundry model listで表示される正式なModel ID(例:qwen2.5-7b-instruct-qnn-npu:2)をそのまま指定する - NPUではなくCPUで動いてしまう:モデル名に
qnnまたはqnn-npuサフィックスが付いていない場合、ONNX非NPU版がロードされCPUにフォールバックする。タスクマネージャーのNPUグラフが反応しなければ、まずモデル選定を疑う - レスポンスに中国語が混入する:Qwen系モデルの既知のクセで、日本語プロンプトに対して時折中国語のトークンが出力される。プロンプト末尾に「日本語で回答」と明示するか、別モデルを試す
- サービスが起動しない・ポートが変わる:Foundry Localはバージョンによりデフォルトポートが変わるため、勝手な決め打ちは禁物。必ず
foundry service statusで実際のエンドポイントURLを確認してから Continue のapiBaseを設定する
発展的な活用:マルチモデル運用とクラウド併用
Continueは config.yml の models: 配列に複数のモデルを並べておけば、サイドバーから瞬時に切り替えられます。日常タスクはNPUモデル、難易度の高いリファクタはクラウドAPI(Anthropic / OpenAI / Google)と使い分けるのが現実的です。
models:
- name: Foundry Local (NPU)
provider: openai
model: qwen2.5-7b-instruct-qnn-npu:2
apiBase: http://127.0.0.1:63067/v1
apiKey: dummy
- name: Claude (Cloud)
provider: anthropic
model: claude-sonnet-4-5-20250929
apiKey: dummy-replace-with-env
ローカル完結環境がどうしても性能不足な場合は、エンジニア向けXServer用途別比較ガイドで紹介しているリモート開発向けクラウドPCを併用するのも有効です。手元のSnapdragon端末で日常タスク、リモート環境で重い学習やバッチ推論、という二段運用が現実的な落とし所になります。



よくある質問
Q. Snapdragon X以外のCopilot+ PCでも同じ手順で動きますか?
Intel Core Ultra系・AMD Ryzen AI系のCopilot+ PCでも、Foundry Local自体は動作しますが、NPU活用にはチップごとの専用ONNXモデルが必要です。Snapdragon用の qnn 系モデルは他チップでは動かないため、各社が配布するNPU最適化モデルを別途取得する必要があります。Foundry LocalはCPUフォールバックも可能なので、まずは標準モデルで動作確認し、その後NPU最適化モデルに切り替えるのが安全です。
Q. macOSやLinuxでは使えませんか?
Foundry Local 自体はMac版もありますが、Mac版はCPU実行のみで、Apple SiliconのGPU/Neural Engineには対応していません。LinuxはWSL経由でも公式サポート外です。Mac勢でローカルAIを本気でやりたい場合は、Apple純正のMLXフレームワークや Ollama + GGUF の組み合わせの方が情報量も実用度も高いです。
Q. Foundry LocalはClaude CodeやCursorからも使えますか?
Foundry LocalのエンドポイントはOpenAI互換APIなので、Cursor・Claude Code・OpenWebUIなど、OpenAI互換クライアントなら基本的にすべて接続可能です。Cursorなら設定の「OpenAI API Key」項目で apiBase を Foundry Localのエンドポイントに変えるだけで動きます。Continueに限らず、自分の好きなクライアントを選べるのが強みです。
Q. NPUの温度上昇やバッテリー消費は大丈夫ですか?
NPUはCPU・GPUと比べて消費電力と発熱が圧倒的に低いのが最大の強みです。実機検証では、長時間の推論を続けてもバッテリー駆動時間が大きく削られることは少なく、ファンが回ることもほぼありません。Snapdragon X Plus搭載端末で推論を回し続けても、CPU/GPUを使った場合と比べてバッテリー寿命が体感1.5倍以上長く感じられます。
本記事で解説したようなAI技術を、基礎から体系的に身につけたい方は、以下のスクールも検討してみてください。
| 比較項目 | Winスクール | Aidemy Premium |
|---|---|---|
| 目的・ゴール | 資格取得・スキルアップ初心者〜社会人向け | エンジニア転身・E資格Python/AI開発 |
| 難易度 | 個人レッスン形式 | コード記述あり |
| 補助金・給付金 | 教育訓練給付金対象 | 教育訓練給付金対象 |
| おすすめ度 | 幅広くITスキルを学ぶなら | AIエンジニアになるなら |
| 公式サイト | 詳細を見る | − |



まとめ
Snapdragon X NPUを実用的に活用する道は、2026年現在Microsoft Foundry Localの登場で一気に現実的になりました。Mac勢のMLXに比べて遅れていたWindows ARM環境が、ようやく「ローカル推論を業務で回せる」段階まで追いついた格好です。
- Foundry Local + Continue が決定版:winget で導入し、OpenAI互換APIでContinueから呼び出すだけで動く
- ONNX形式の qnn-npu 系モデルを必ず指定:GGUFは動かない、汎用名はCPUフォールバックを招く
- config.ymlのmodelは完全修飾IDで書く:foundry model list で確認した正式名をそのまま貼る
- クラウドAPIとの二段構えが実用的:日常タスクはNPU、難所はクラウド、機密はローカル限定でルール化
- NPU活用のキャリア価値:Windows ARM × ローカルLLMの実装経験は希少で、社内SE・AI人材市場の評価軸として機能する
Snapdragon X搭載のCopilot+ PCを持っているのに「NPUは飾り」だと感じている方は、まず本記事の手順で Foundry Local をインストールし、foundry model run でNPU推論が動く感覚を体験してみてください。動いた瞬間にWindows ARM環境への見方が変わり、Mac勢への羨望を卒業できる実感が手に入ります。
厳しめIT女子 アラ美による解説ショート動画はこちら












