LOADING

読み込みが遅い場合はキャッシュを有効にしてください。ブラウザはデフォルトで有効になっています

MY BLOG

個人技術ブログ

LangChainの基本使い方

AI 2025/8/30

LangChainの基本的な使い方について解説しており、LLM(大規模言語モデル)が人間のようにテキストを解釈・生成できる強力なAIツールであることを紹介し、コンテンツ作成、言語翻訳、要約、質問応答など多様なタスクに活用できることを述べています。記事では、メッセージ(HumanMessage、AIMessage、SystemMessage)、モデル(OllamaLLM、init_chat_modelなど)、ツール(@toolデコレーターを使ったカスタムツール定義)、エージェント(create_agentによる作成)、ストリームモード(updates、messages、customモード)、出力構造化(ToolStrategy、ProviderStrategy)、短期記憶(checkpointerによる会話履歴の保存)など、LangChainの主要な構成要素について詳細なコード例を交えて説明しています。

続きを読む

SVDとPCAの本質

AI 2024/6/14

PCAの本質は、元のデータにPCAを適用した後、得られる結果の共分散行列の各方向の分散を最大限にし、共分散をゼロにすることにあると説明されています。これは、座標系の変換により、第1主成分に第1の分散が集中し、第2主成分に第2の分散が集中することを意味します。

続きを読む

MobileNetシリーズの説明

AI 2024/5/11

MobileNetは、モバイル機器や組み込み機器向けの効率的なCNNモデルシリーズで、V1では計算コストを大幅に削減するDepthwise Separable Convolution(DSC)を導入し、V2ではInverted Residual BlockとLinear Bottleneckにより精度と効率のバランスを改善、V3ではSE Blockとh-swish活性化関数を活用してさらに性能を向上させている。

続きを読む

ConvNeXt解読

AI 2024/5/10

ConvNeXtは、特に新しい構造やイノベーションがあるわけではなく、既存のネットワークで使われている細かい設計要素を適切に組み合わせることで、ImageNetのTop-1精度を向上させました。この設計の動機は非常にシンプルで、「TransformerやSwin-Transformerがどのようにしているかを参考にして、効果があれば採用する」という方針に従っています。

続きを読む

Swin Transformer

AI 2024/4/11

Microsoft Researchが開発したSwin Transformer(Shifted Window Transformer)について詳しく解説しています。従来のVision Transformerが抱える計算複雑性と局所特徴捕捉の問題を解決するために、ウィンドウベースのアテンションメカニズムと階層的な特徴処理を導入したモデルです。ブログでは、Patch Embedding、Window Partition、W-MSA、SW-MSA、PatchMergingなどの中核コンポーネントを図解とコード例を交えて詳細に説明し、Swin Transformerがどのようにして計算効率と性能のバランスを実現しているかを分かりやすく紹介しています。

続きを読む

Vision Transformer(ViT)

AI 2024/4/10

Vision Transformer(ViT)が画像認識において空間的な局所性や平移等価性といった帰納的バイアスを明示的に持たないことによる課題を指摘しつつも、大規模データでの学習を通じてAttention機構がこれらの問題を補完できると述べています。また、モデルの性能は構造だけでなくデータ量にも依存しており、十分なデータがあればTransformer系のモデルでも優れた結果が得られると強調しています。要するに、「ViTは帰納的バイアスが弱いが、データがあればその欠点を克服できる」という主張がまとめられます。

続きを読む

遅延バインディング (late binding)

Python 2024/4/9

遅延バインディング (late binding) についての記事です。Pythonでよく見かける問題と、それを解決する方法を紹介します。

続きを読む

VITS論文の解読

AI 2024/4/9

VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)は、変分推論(variational inference)、正規化フロー(normalizing flows)、および敵対的学習を組み合わせた、表現力の高い音声合成モデルです。VITSは、音声合成における音響モデルとボコーダーをスペクトログラムではなく潜在変数で連結し、潜在変数上で確率モデリングを行い、確率的デュレーション予測器を利用することで、合成音声の多様性を向上させています。同じテキストを入力しても、異なるトーンやリズムの音声を合成することが可能になります。

続きを読む

StyleGANシリーズ(v1~v3)の画像生成技術

AI 2024/4/8

StyleGANシリーズ(v1~v3)は、NVIDIAによって開発された高品質な顔画像生成を目的としたGAN(敵対的生成ネットワーク)のアーキテクチャで、特にスタイルベースの生成器構造を採用することで、画像の視覚的特徴をより細かく制御可能にした点が特徴です。v1では潜在空間を分離し、各レイヤーでAdaINを通じてスタイル情報を注入する手法を導入し、v2では水滴状アーティファクトの解消や正則化手法の導入により画像品質を向上させました。さらにv3では、生成画像における「テクスチャが画面上に固定される」問題に対処し、畳み込みネットワークの等変性(平移・回転に対する一貫性)を理論的に保証する設計へと進化させ、自然でリアルな画像生成を実現しています。このシリーズは画像生成技術の基盤として広く応用され、FIDやPPLなどの評価指標を用いてその性能が検証されています。

続きを読む

時系列予測基礎:RNN、LSTM、GRU

AI 2024/4/7

リカレントニューラルネットワーク(RNN)、長短期記憶ネットワーク(LSTM)、およびゲート付きリカレントユニット(GRU)について詳しく解説しています。RNNは時系列データを処理するための基本的なニューラルネットワークアーキテクチャであり、隠れ状態を通じて過去の情報を保持しますが、勾配消失問題により長期依存関係の学習が困難です。この問題を解決するために開発されたLSTMは、入力ゲート、忘却ゲート、出力ゲートの3つのゲート機構を持つことで、長期的な情報保持が可能になります。さらに進化したGRUは、リセットゲートと更新ゲートの2つのゲートのみで構成され、LSTMと比較してよりシンプルで計算効率が良いながらも、同様の性能を発揮します。これらのモデルは自然言語処理や時系列予測など様々な分野で広く利用されています。

続きを読む
avatar
lijunjie2232

平凡なAI開発者であり、様々な技術を学ぶことが好きです