LOADING

読み込みが遅い場合はキャッシュを有効にしてください。ブラウザはデフォルトで有効になっています

MY BLOG

個人技術ブログ

MobileNetシリーズの説明

AI 2024/5/11

MobileNetは、モバイル機器や組み込み機器向けの効率的なCNNモデルシリーズで、V1では計算コストを大幅に削減するDepthwise Separable Convolution(DSC)を導入し、V2ではInverted Residual BlockとLinear Bottleneckにより精度と効率のバランスを改善、V3ではSE Blockとh-swish活性化関数を活用してさらに性能を向上させている。

続きを読む

ConvNeXt解読

AI 2024/5/10

ConvNeXtは、特に新しい構造やイノベーションがあるわけではなく、既存のネットワークで使われている細かい設計要素を適切に組み合わせることで、ImageNetのTop-1精度を向上させました。この設計の動機は非常にシンプルで、「TransformerやSwin-Transformerがどのようにしているかを参考にして、効果があれば採用する」という方針に従っています。

続きを読む

Swin Transformer

AI 2024/4/11

Microsoft Researchが開発したSwin Transformer(Shifted Window Transformer)について詳しく解説しています。従来のVision Transformerが抱える計算複雑性と局所特徴捕捉の問題を解決するために、ウィンドウベースのアテンションメカニズムと階層的な特徴処理を導入したモデルです。ブログでは、Patch Embedding、Window Partition、W-MSA、SW-MSA、PatchMergingなどの中核コンポーネントを図解とコード例を交えて詳細に説明し、Swin Transformerがどのようにして計算効率と性能のバランスを実現しているかを分かりやすく紹介しています。

続きを読む

Vision Transformer(ViT)

AI 2024/4/10

Vision Transformer(ViT)が画像認識において空間的な局所性や平移等価性といった帰納的バイアスを明示的に持たないことによる課題を指摘しつつも、大規模データでの学習を通じてAttention機構がこれらの問題を補完できると述べています。また、モデルの性能は構造だけでなくデータ量にも依存しており、十分なデータがあればTransformer系のモデルでも優れた結果が得られると強調しています。要するに、「ViTは帰納的バイアスが弱いが、データがあればその欠点を克服できる」という主張がまとめられます。

続きを読む

遅延バインディング (late binding)

Python 2024/4/9

遅延バインディング (late binding) についての記事です。Pythonでよく見かける問題と、それを解決する方法を紹介します。

続きを読む

VITS論文の解読

AI 2024/4/9

VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)は、変分推論(variational inference)、正規化フロー(normalizing flows)、および敵対的学習を組み合わせた、表現力の高い音声合成モデルです。VITSは、音声合成における音響モデルとボコーダーをスペクトログラムではなく潜在変数で連結し、潜在変数上で確率モデリングを行い、確率的デュレーション予測器を利用することで、合成音声の多様性を向上させています。同じテキストを入力しても、異なるトーンやリズムの音声を合成することが可能になります。

続きを読む

StyleGANシリーズ(v1~v3)の画像生成技術

AI 2024/4/8

StyleGANシリーズ(v1~v3)は、NVIDIAによって開発された高品質な顔画像生成を目的としたGAN(敵対的生成ネットワーク)のアーキテクチャで、特にスタイルベースの生成器構造を採用することで、画像の視覚的特徴をより細かく制御可能にした点が特徴です。v1では潜在空間を分離し、各レイヤーでAdaINを通じてスタイル情報を注入する手法を導入し、v2では水滴状アーティファクトの解消や正則化手法の導入により画像品質を向上させました。さらにv3では、生成画像における「テクスチャが画面上に固定される」問題に対処し、畳み込みネットワークの等変性(平移・回転に対する一貫性)を理論的に保証する設計へと進化させ、自然でリアルな画像生成を実現しています。このシリーズは画像生成技術の基盤として広く応用され、FIDやPPLなどの評価指標を用いてその性能が検証されています。

続きを読む

時系列予測基礎:RNN、LSTM、GRU

AI 2024/4/7

リカレントニューラルネットワーク(RNN)、長短期記憶ネットワーク(LSTM)、およびゲート付きリカレントユニット(GRU)について詳しく解説しています。RNNは時系列データを処理するための基本的なニューラルネットワークアーキテクチャであり、隠れ状態を通じて過去の情報を保持しますが、勾配消失問題により長期依存関係の学習が困難です。この問題を解決するために開発されたLSTMは、入力ゲート、忘却ゲート、出力ゲートの3つのゲート機構を持つことで、長期的な情報保持が可能になります。さらに進化したGRUは、リセットゲートと更新ゲートの2つのゲートのみで構成され、LSTMと比較してよりシンプルで計算効率が良いながらも、同様の性能を発揮します。これらのモデルは自然言語処理や時系列予測など様々な分野で広く利用されています。

続きを読む

AutoEncoder、DAE と VAE (VAE実装含む)

AI 2024/4/6

オートエンコーダーは、主に教師なし学習に使われるニューラルネットワークの一種で、データの効率的な表現を学ぶことを目的とします。特に、次元削減や特徴抽出に用いられます。一方、VAE(Variational Autoencoder)はオートエンコーダーの一種であり、確率的表現を持つため、より柔軟なデータ生成が可能です。

続きを読む

ResNetの説明

AI 2024/4/5

ResNetは2015年にマイクロソフトの何凱明氏らによって提案された深層学習モデルで、従来のCNNが抱えていたネットワークが深くなるほど性能が劣化するという問題を、ショートカット接続と残差学習の概念を導入することで解決しました。このモデルは極めて深いネットワーク構造(152層、場合によっては1000層以上)を可能にし、画像認識・分類タスクにおいて顕著な成果を残し、深層学習の発展に大きな影響を与えました。

続きを読む
avatar
lijunjie2232

平凡なAI開発者であり、様々な技術を学ぶことが好きです