1秒以内に返答するAIデスクトップ companion「My-neuro」—声質クローン・長期記憶・Live2D対応の全部入りキャラクターAI

タグ My-neuroGPT-SoVITSLive2D声質クローンAIキャラクターRAG長期記憶デスクトップAIVTubercolumnコラムwindowsWindowslinuxLinuxGitHubオープンソースmoretttmy-neuro

1秒以内に返答するAIデスクトップ companion「My-neuro」—声質クローン・長期記憶・Live2D対応の全部入りキャラクターAI

ひとことでいうと

My-neuro は、デスクトップに「自分だけのAIキャラクター」を呼び出せるオープンソースプロジェクトです。音声で自然に会話でき、Live2D(2Dイラストをリアルタイムに動かす技術)で表情や動作も表現します。声・性格・外見をすべて自分好みに設定でき、フルローカル(インターネット接続なし)の環境でも応答遅延1秒以下という目標を掲げています。VTuber「neuro-sama」からインスピレーションを得たプロジェクトで、プログラマーからクリエイターまで幅広い方が活用できます。

こんな人におすすめ

  1. AIキャラクターやVTuber技術を学びたい人: Live2DとLLM(大規模言語モデル)とTTS(音声合成)を組み合わせた実装例として、各モジュールの連携方法やレイテンシ削減の仕組みをコードレベルで学べます。

  2. 自分だけの声・性格のキャラクターを作りたいクリエイター: GPT-SoVITSという音声クローン技術で声を再現し、プロンプト(AIへの指示文)でキャラクターの性格を定義することで、世界に一つだけのAIキャラクターを育てられます。

  3. 配信者・ゲームが好きな人: Bilibili(動画配信サービス)との連携や、Minecraft・Galgame(ギャルゲー)との共同プレイ、AI歌唱など、配信・ゲームに特化した機能が豊富に揃っています。

インストール・使い方

プロジェクトはWindows向けにバッチファイル(.bat、ダブルクリックで実行できる自動化ファイル)が用意されており、段階的に起動できる設計になっています。詳しい手順は公式サイト(mynewbot.com/tutorials)にも掲載されています。

Step 1 — リポジトリを手元に取得する

git clone https://github.com/morettt/my-neuro.git
cd my-neuro

git clone は、インターネット上のソースコード(プログラムの設計図)を自分のパソコンにコピーするコマンドです。ターミナル(文字で命令を送る画面)に上の2行をコピー&ペーストして実行してください。

Step 2 — Pythonのパッケージをインストールする

pip install -r requirements.txt

pip はPython用の「アプリストア」のようなツールです。このコマンドで動作に必要なライブラリ(部品)がまとめてインストールされます。Python 3.12系での動作が確認されています。

Step 3 — Live2Dフロントエンドを準備する

cd live-2d
npm install

npm install はNode.js(Webアプリを動かす実行環境)用のパッケージを取得するコマンドです。完了したら live-2d/config.json ファイルを開き、キャラクター設定・感情マッピング・音声設定を編集します。

Step 4 — 各サービスを起動する

Windowsでは、以下のバッチファイルをそれぞれターミナルから実行します。

2.TTS.bat        # TTS(音声合成)サービスの起動
3.bert.bat       # BERT による感情分析の起動
RAG.bat          # RAG(長期記憶)サービスの起動
live-2d\go.bat   # Live2D フロントエンドの起動

LLMのAPIキー(AIサービスを使うための認証コード)は live-2d/config.json または環境変数で設定します。DMXAPI経由でGPT-4o・Claude・Geminiなど主要モデルを統一した窓口から呼び出せます。

動かしてみた

検証環境ではPython 3.12.13が正常に動作することを確認しました。プロジェクトのファイル構成も問題なく取得でき、live-2d/config.jsonlive-2d/emotion_expressions.jsonlive-2d/emotion_actions.json といった設定ファイルがすべて揃っていることを確認しています。Live2DフロントエンドにはNode.js用の package.jsonpackage-lock.json が存在し、依存関係の管理も整備されていました。

試す前に知っておくとよいこととして、実際の音声対話にはGPT-SoVITSモデルのダウンロード(数GB規模)とLLM APIキーの設定が必要です。ディスクの空き容量は推奨20GB以上を確保しておくと安心です。OSはWindowsを想定した設計で、バッチファイルによる起動が基本となります。

デモについて

本プロジェクトはリアルタイム音声合成・Live2Dレンダリング・LLM API連携を組み合わせたアプリケーションのため、ブラウザだけで完結するシンプルなデモには対応していません。GPT-SoVITS音声モデル・LLM APIキー・Node.js環境のセットアップが必要となります。試す際は公式サイト(mynewbot.com/tutorials)の手順に沿ってローカル環境を整備してから始めることをおすすめします。

はじめの一歩 — 最短で会話を始めるコツ

初めて触れる場合は、次の順番で進めると迷いが少なくなります。

  • まずAPIキーだけ設定して起動する: 既定キャラクター「肥牛(Fake Neuro)」のままで、live-2d/config.json のAPIキー欄にDMXAPIやOpenAI互換のキーを入力し、go.bat を実行するだけでテキスト対話を始められます。
  • TTS・感情・記憶は後から有効化する: 各モジュールを段階的に追加できる設計のため、まず最小構成で動作確認を取ってから少しずつ機能を増やすのが安全です。
  • update.py で依存関係を最新に保つ: このスクリプトを定期的に実行することで、ライブラリのバージョンを自動的に更新できます。
  • 設定ファイルはバックアップを取ってから編集する: config.json を誤って変更すると起動できなくなる場合があります。編集前にファイルのコピーを別フォルダに保存しておきましょう。
  • 公式チュートリアルを手元に置く: mynewbot.com/tutorials に動画や図解が掲載されているため、手順で迷ったときはそちらを参照するのが最も確実です。

活用アイデア

  • 語学練習パートナー: キャラクターの性格と使用言語をカスタマイズし、特定の言語で話しかけてくるAIを作れます。字幕を日本語・音声を英語のように分離表示する機能も活用できます。
  • 配信アバター: Bilibili配信と連携し、視聴者コメントにリアルタイムで反応するVTuber的キャラクターとして活用できます。感情表情・動作が自動で切り替わるため、視覚的な演出も担えます。
  • 学習コーチ: 「AI講課(授業)」機能を使い、選んだテーマについてAIが講義を行います。自分の資料をRAGデータベースに登録することで、専門的な内容にも対応させられます。
  • ゲームの仲間: MinecraftやGalgameと連携し、プレイ中にキャラクターと会話しながら進める体験ができます。
  • 声の試作ツール: GPT-SoVITSを使って声質クローンを作成し、オリジナルキャラクターの声をプロトタイピングするクリエイティブ用途に活用できます。
  • Androidアプリとの連携: モバイル対応が含まれているため、スマートフォンからもAIキャラクターと対話できる環境を構築できます。

用語とポイント解説

GPT-SoVITS RVC-Bossが開発したオープンソースのTTSシステムです。かんたんに言うと、短いサンプル音声さえあればその声に似た合成音声を作れるツールです。声質クローン(声の複製)に使われ、My-neuroの音声表現を担います。

RAG(Retrieval-Augmented Generation) 外部の知識データベースを検索してからAIに回答させる手法です。かんたんに言うと、「まず資料を調べてから答える」仕組みで、長期記憶や専門資料の活用に使われます。

MCP(Model Context Protocol) LLMにブラウザ操作・ファイル操作などのツールを与えるための標準規格です。かんたんに言うと、AIに「手足」を与えてパソコン上の作業を代わりに行わせるための取り決めです。本プロジェクトではMicrosoft製のPlaywright-MCPを採用しています。

MemOS 会話履歴やユーザー情報を長期間保持するためのオープンソースライブラリです。かんたんに言うと、AIが「以前の会話を覚えておく」ための記憶管理ツールです。

Live2D 2Dイラストに立体的な動きを付ける技術です。かんたんに言うと、絵を動かしてキャラクターの表情や動作をリアルタイムに表現する仕組みです。VTuberにも広く使われています。

LLM(Large Language Model) GPTやClaudeのような、大量のテキストで学習した大型のAIモデルです。かんたんに言うと、文章を理解して自然な返答を生成するAIの「頭脳」部分です。本プロジェクトではローカルモデルとクラウドAPIの両方に対応しています。

DMXAPI 複数のLLM(GPT-4o・Claude・Geminiなど)を統一したインターフェースで呼び出せるAPIサービスです。かんたんに言うと、異なるAIサービスを一つの窓口からまとめて使えるようにする中継サービスです。

TTS(Text-to-Speech) 文字情報を音声に変換する技術の総称です。かんたんに言うと、テキストを読み上げてくれる「音声合成エンジン」のことです。My-neuroでは主にGPT-SoVITSがこの役割を担います。

BERT Googleが開発した自然言語処理モデルで、文の感情や文脈を分析するのに使われます。かんたんに言うと、AIが「この発言は嬉しそう・悲しそう」と判断するための分析エンジンです。My-neuroではこの判定結果をもとにキャラクターの表情が自動で切り替わります。

ぜひ、AIキャラクターを使った語学練習パートナーの構築や、配信アバターとしての活用、あるいはゲームのコンパニオン開発などに活用してみてはいかがでしょうか。