<?xml version="1.0" encoding="utf-8"?><feed xmlns="http://www.w3.org/2005/Atom" ><generator uri="https://jekyllrb.com/" version="3.10.0">Jekyll</generator><link href="https://mikittt.github.io/feed.xml" rel="self" type="application/atom+xml" /><link href="https://mikittt.github.io/" rel="alternate" type="text/html" /><updated>2025-04-10T18:23:18-07:00</updated><id>https://mikittt.github.io/feed.xml</id><title type="html">Mikihiro Tanaka’s Website</title><subtitle></subtitle><author><name>Mikihiro Tanaka</name><email>mikihiro.tanaka977@gmail.com</email></author><entry><title type="html">Future Blog Post</title><link href="https://mikittt.github.io/posts/2012/08/blog-post-4/" rel="alternate" type="text/html" title="Future Blog Post" /><published>2199-01-01T00:00:00-08:00</published><updated>2199-01-01T00:00:00-08:00</updated><id>https://mikittt.github.io/posts/2012/08/future-post</id><content type="html" xml:base="https://mikittt.github.io/posts/2012/08/blog-post-4/"><![CDATA[<p>This post will show up by default. To disable scheduling of future posts, edit <code class="language-plaintext highlighter-rouge">config.yml</code> and set <code class="language-plaintext highlighter-rouge">future: false</code>.</p>]]></content><author><name>Mikihiro Tanaka</name><email>mikihiro.tanaka977@gmail.com</email></author><summary type="html"><![CDATA[This post will show up by default. To disable scheduling of future posts, edit config.yml and set future: false.]]></summary></entry><entry><title type="html">Blog Post number 4</title><link href="https://mikittt.github.io/posts/2012/08/blog-post-4/" rel="alternate" type="text/html" title="Blog Post number 4" /><published>2015-08-14T00:00:00-07:00</published><updated>2015-08-14T00:00:00-07:00</updated><id>https://mikittt.github.io/posts/2012/08/blog-post-4</id><content type="html" xml:base="https://mikittt.github.io/posts/2012/08/blog-post-4/"><![CDATA[<p>This is a sample blog post. Lorem ipsum I can’t remember the rest of lorem ipsum and don’t have an internet connection right now. Testing testing testing this blog post. Blog posts are cool.</p>

<h1 id="headings-are-cool">Headings are cool</h1>

<h1 id="you-can-have-many-headings">You can have many headings</h1>

<h2 id="arent-headings-cool">Aren’t headings cool?</h2>]]></content><author><name>Mikihiro Tanaka</name><email>mikihiro.tanaka977@gmail.com</email></author><category term="cool posts" /><category term="category1" /><category term="category2" /><summary type="html"><![CDATA[This is a sample blog post. Lorem ipsum I can’t remember the rest of lorem ipsum and don’t have an internet connection right now. Testing testing testing this blog post. Blog posts are cool.]]></summary></entry><entry><title type="html">Blog Post number 3</title><link href="https://mikittt.github.io/posts/2014/08/blog-post-3/" rel="alternate" type="text/html" title="Blog Post number 3" /><published>2014-08-14T00:00:00-07:00</published><updated>2014-08-14T00:00:00-07:00</updated><id>https://mikittt.github.io/posts/2014/08/blog-post-3</id><content type="html" xml:base="https://mikittt.github.io/posts/2014/08/blog-post-3/"><![CDATA[<p>This is a sample blog post. Lorem ipsum I can’t remember the rest of lorem ipsum and don’t have an internet connection right now. Testing testing testing this blog post. Blog posts are cool.</p>

<h1 id="headings-are-cool">Headings are cool</h1>

<h1 id="you-can-have-many-headings">You can have many headings</h1>

<h2 id="arent-headings-cool">Aren’t headings cool?</h2>]]></content><author><name>Mikihiro Tanaka</name><email>mikihiro.tanaka977@gmail.com</email></author><category term="cool posts" /><category term="category1" /><category term="category2" /><summary type="html"><![CDATA[This is a sample blog post. Lorem ipsum I can’t remember the rest of lorem ipsum and don’t have an internet connection right now. Testing testing testing this blog post. Blog posts are cool.]]></summary></entry><entry><title type="html">Blog Post number 2</title><link href="https://mikittt.github.io/posts/2013/08/blog-post-2/" rel="alternate" type="text/html" title="Blog Post number 2" /><published>2013-08-14T00:00:00-07:00</published><updated>2013-08-14T00:00:00-07:00</updated><id>https://mikittt.github.io/posts/2013/08/blog-post-2</id><content type="html" xml:base="https://mikittt.github.io/posts/2013/08/blog-post-2/"><![CDATA[<p>This is a sample blog post. Lorem ipsum I can’t remember the rest of lorem ipsum and don’t have an internet connection right now. Testing testing testing this blog post. Blog posts are cool.</p>

<h1 id="headings-are-cool">Headings are cool</h1>

<h1 id="you-can-have-many-headings">You can have many headings</h1>

<h2 id="arent-headings-cool">Aren’t headings cool?</h2>]]></content><author><name>Mikihiro Tanaka</name><email>mikihiro.tanaka977@gmail.com</email></author><category term="cool posts" /><category term="category1" /><category term="category2" /><summary type="html"><![CDATA[This is a sample blog post. Lorem ipsum I can’t remember the rest of lorem ipsum and don’t have an internet connection right now. Testing testing testing this blog post. Blog posts are cool.]]></summary></entry><entry><title type="html">高精度な日本語マルチモーダル大規模言語モデルの構築にむけたデータセットの検討 (NLP2025)</title><link href="https://mikittt.github.io/posts/Japanese_MLLM" rel="alternate" type="text/html" title="高精度な日本語マルチモーダル大規模言語モデルの構築にむけたデータセットの検討 (NLP2025)" /><published>2012-08-14T00:00:00-07:00</published><updated>2012-08-14T00:00:00-07:00</updated><id>https://mikittt.github.io/posts/blog-post-1</id><content type="html" xml:base="https://mikittt.github.io/posts/Japanese_MLLM"><![CDATA[<p>田中 幹大, 朱 佩菲, 横尾 修平 (LINEヤフー株式会社) <a href="https://mikittt.github.io/files/jmllm.pdf">[paper]</a></p>

<p>このページではNLPの論文内容に加え、新しく日本語MLLMの評価ベンチマークとして提案する<a href="https://huggingface.co/datasets/line-corporation/JIC-VQA">JIC-VQA</a>についても紹介する。</p>

<ul>
  <li><a href="#概要">概要</a></li>
  <li><a href="#実験結果">実験結果</a></li>
  <li><a href="#JIC-VQAベンチマークの作成">JIC-VQAベンチマークの作成</a></li>
</ul>

<h2 id="概要"><a id="概要">概要</a></h2>
<p>近年、大規模言語モデル　(LLM) に視覚情報を統合した、マルチモーダル大規模言語モデル（MLLM）が注目を集めており、その応用範囲は急速に拡大している。しかし、日本ドメインに特化したMLLM を作る上で、英語のデータに比べて公開データが少ない課題がある。本研究では、高精度な日本語MLLMを構築するためのデータセットの作成方法について検討し、実験を行った。構築したモデルは、<b>日本ドメインの画像理解を問うベンチマークにおいて、他のモデルよりも優位な結果を示し</b>、その有効性を実証した。</p>

<p>また、日本語MLLMを作るにあたり、日本ドメイン画像の認識能力は最も基礎的で重要な能力の一つである。しかし、従来のベンチマークではこの点に焦点をおいた評価が行いづらい課題があった。そこで、日本ドメイン画像の認識能力を問う<b>ベンチマーク: JIC-VQA</b>を提案した。提案するベンチマークにより、日本語MLLMにおいても日本ドメインに強い画像エンコーダーを作っていくことが重要であることを示した。</p>

<h2 id="実験結果"><a id="実験結果">実験結果</a></h2>
<p>提案モデルは、日本ドメインの画像を扱うHeron-BenchとJA-VLM-Benchにおいて既存手法を上回る性能を達成した。
<img src="/images/japanese_mllm/quantitative.png" /></p>

<p>定性的結果例を以下に示す。提案モデルは左のHeron-Benchの例では日本固有の「風神雷神」を認識しており、右のJA-VLM-Benchの例では2つの交通標識を正しく認識していることが分かる。
<img src="/images/japanese_mllm/qualitative.png" /></p>

<p>本研究では<a href="https://huggingface.co/cyberagent/calm3-22b-chat">CALM3-22B</a>を用いてMLLMを構築した。本研究で構築したデータセットの有用性を確認するために、VILA-jpと同様<a href="https://huggingface.co/llm-jp/llm-jp-3-13b-instruct">llm-jp-3-13b-instruct</a>を用いた実験を行った。</p>

<p>llm-jp-3-13b-instructを用いた時は、提案データセットに対して適切なフィルタリングを行うことでVILA-jpを上回る性能を得た(表上から3番目)。ここで、フィルタリングは作成したデータの中で、解答文に疑問文を含むものを除く処理を行った。</p>

<table>
  <thead>
    <tr>
      <th>Models</th>
      <th>Heron-Bench <br /> LLM Average (%)</th>
      <th>JA-VLM-Bench <br /> LLM (/5.0)</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>VILA-jp (SigLIP + llm-jp-3-13b-instruct)</td>
      <td>57.2</td>
      <td>3.69</td>
    </tr>
    <tr>
      <td>(提案データ)  SigLIP + llm-jp-3-13b-instruct</td>
      <td>56.6</td>
      <td>3.62</td>
    </tr>
    <tr>
      <td>(提案データ+filtering) SigLIP + llm-jp-3-13b-instruct</td>
      <td>60.4</td>
      <td>3.7</td>
    </tr>
  </tbody>
</table>

<h2 id="jic-vqaベンチマークの作成"><a id="JIC-VQAベンチマークの作成">JIC-VQAベンチマークの作成</a></h2>

<p>日本語MLLMを作る上で、日本ドメインの画像を認識できるかは最も基礎的で重要な能力の一つである。これまで日本ドメイン画像を用いて、Heron-BenchやJA-VLM-Benchに加えて、JMMMUといったベンチマークが提案されてきた。しかしこれらのベンチマークでは、知識を問うものなどのLLMの能力が重要となる質問が多く含まれているため、日本ドメインの画像認識に焦点を置いた基礎的な能力を評価できない課題があった。</p>

<p>そこで、Recruit社が日本語CLIPの評価のために公開した<a href="https://huggingface.co/datasets/recruit-jp/japanese-image-classification-evaluation-dataset">japanese-image-classification-evaluation-dataset</a>を用いて4択式の7,654件の質問を付与して日本語MLLMの評価用に拡張した、Japanese-Image-Classification-VQA(JIC-VQA)と呼ぶベンチマークによる評価を提案する。4つの選択肢のうち誤りの回答は、正解と最も類似しているクラスをクラス名の候補からLLMによって選択して用意した。</p>

<p>提案するJIC-VQAベンチマークは、元のデータセットと同じで、jaflower30(日本の花30種)・jafood101(日本の食材、料理101種)・
jalandmark10(日本のランドマーク10種)・jafacility20(日本の施設20種)から構成される。</p>

<p>ベンチマークの例を以下に示す。
<img src="/images/japanese_mllm/JIC-QA.png" /></p>

<p>日本語MLLMの評価に一般的に用いられるベンチマークとの比較を以下の表に示す。提案するJIC-VQAは日本ドメインの画像の常識的なレベルの理解を問う、大きなベンチマークとなっている。</p>

<table>
  <thead>
    <tr>
      <th>ベンチマーク</th>
      <th>画像ドメイン</th>
      <th>質問数</th>
      <th>レベル</th>
      <th>評価方法</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td><a href="https://huggingface.co/datasets/turing-motors/Japanese-Heron-Bench">Heron-Bench</a></td>
      <td>日本</td>
      <td>102</td>
      <td>常識</td>
      <td>LLM</td>
    </tr>
    <tr>
      <td><a href="https://huggingface.co/datasets/SakanaAI/JA-VLM-Bench-In-the-Wild">JA-VLM-Bench</a></td>
      <td>日本</td>
      <td>60</td>
      <td>常識</td>
      <td>自動評価 or LLM</td>
    </tr>
    <tr>
      <td><a href="https://huggingface.co/datasets/SakanaAI/JA-VG-VQA-500">JA-VG-VQA-500</a></td>
      <td>海外</td>
      <td>4,000</td>
      <td>常識</td>
      <td>自動評価 or LLM</td>
    </tr>
    <tr>
      <td><a href="https://huggingface.co/datasets/JMMMU/JMMMU">JMMMU</a></td>
      <td>日本</td>
      <td>1,320</td>
      <td>専門的</td>
      <td>正解率</td>
    </tr>
    <tr>
      <td>JIC-VQA (提案)</td>
      <td>日本</td>
      <td>7,654</td>
      <td>常識</td>
      <td>正解率</td>
    </tr>
  </tbody>
</table>

<p>評価結果を以下の表に示す。日本語版CLIPとは、日本ドメインに特化したCLIPである<a href="https://huggingface.co/line-corporation/clip-japanese-base">clip-japanese-base</a>をベースとし、ViT-L/14@336pxを用いて開発したモデルである。MLLMの画像エンコーダーとして日本語版CLIPを用いたモデルは、海外ドメインで主に訓練されている<a href="https://huggingface.co/google/siglip-so400m-patch14-384">SigLIP</a>を用いたモデルの性能を大きく上回り、特に食べ物やランドマークの認識で差がついた。</p>

<p>公開されているMLLMには、日本ドメインに特化させていないが高い日本語能力を持つものがある。表には代表的なモデルとして、<a href="https://huggingface.co/Qwen/Qwen2-VL-7B-Instruct">Qwen2-VL-7B-Instruct</a>と<a href="https://huggingface.co/OpenGVLab/InternVL2-8B">InternVL2-8B</a>の結果も示している。Qwen2-VL-7B-Instructは高い認識能力を示したが、日本の食べ物の認識能力は弱く、特定のカテゴリの認識には弱いことが伺える。</p>

<table>
  <thead>
    <tr>
      <th>モデル</th>
      <th>jaflower30</th>
      <th>jafood101</th>
      <th>jalandmark10</th>
      <th>jafacility20</th>
      <th>平均</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td><a href="https://huggingface.co/cyberagent/llava-calm2-siglip">LLaVA-CALM2-SigLIP</a></td>
      <td>0.61</td>
      <td>0.55</td>
      <td>0.42</td>
      <td>0.77</td>
      <td>0.59</td>
    </tr>
    <tr>
      <td><a href="https://huggingface.co/llm-jp/llm-jp-3-vila-14b">VILA-jp</a> (SigLIP + llm-jp-3-13b-instruct)</td>
      <td>0.91</td>
      <td>0.76</td>
      <td>0.74</td>
      <td>0.89</td>
      <td>0.83</td>
    </tr>
    <tr>
      <td><a href="https://huggingface.co/Qwen/Qwen2-VL-7B-Instruct">Qwen2-VL-7B-Instruct</a></td>
      <td>0.91</td>
      <td>0.79</td>
      <td><b>0.92</b></td>
      <td><b>0.93</b></td>
      <td>0.87</td>
    </tr>
    <tr>
      <td><a href="https://huggingface.co/OpenGVLab/InternVL2-8B">InternVL2-8B</a></td>
      <td>0.48</td>
      <td>0.63</td>
      <td>0.71</td>
      <td>0.81</td>
      <td>0.66</td>
    </tr>
    <tr>
      <td>(提案データ) <br />SigLIP + CALM3-22B</td>
      <td>0.92</td>
      <td>0.84</td>
      <td>0.79</td>
      <td>0.86</td>
      <td>0.85</td>
    </tr>
    <tr>
      <td>(提案データ) <br />日本語版CLIP + CALM3-22B</td>
      <td><b>0.95</b></td>
      <td><b>0.91</b></td>
      <td>0.89</td>
      <td><b>0.93</b></td>
      <td><b>0.92</b></td>
    </tr>
  </tbody>
</table>

<p>定性的な結果を以下の図に示す。海外ドメインを中心として学習されたSigLIPを画像エンコーダーを用いると、豊富な日本ドメインの知識を持つLLMと合わせてMLLMを学習しても基本的な日本ドメインの画像認識に失敗することがある事が分かる。これらの結果からも、日本ドメインに強力な画像エンコーダーの構築が重要であることが分かる。</p>

<p><img src="/images/japanese_mllm/new_res4.png" width="85%" /></p>]]></content><author><name>Mikihiro Tanaka</name><email>mikihiro.tanaka977@gmail.com</email></author><summary type="html"><![CDATA[高精度な日本語マルチモーダル大規模言語モデルの構築にむけたデータセットの検討 (NLP2025)]]></summary></entry></feed>