正確に扱いたいものは、構造化データ
まず前提として、
明確に扱いたいものは、構造化した方が扱いやすいです。
例えば、
- 数値(スコア・確率など)
- 明確なカテゴリ
- Yes/Noの判断
こういったものは、フォーマットを固定した方が安定する。
集計や分析、モデルへの入力など、
“ズレてほしくない部分”は構造化しておく。
この考え方は今でも変わらないと感じています。
LLMの登場で、半構造化データの価値が上がった
一方で、大きく変わってきたのが半構造化データの扱いです。
以前は、きれいに構造化しないと扱いづらかったものも、
今はある程度そのままでも使えるようになってきた。
例えば、
- 会話の流れ
- 理由や背景
- 微妙なニュアンス
こういった情報も、
- JSONで軽く枠だけ作る
- テキストをそのまま残す
といった形で持っておけば、
後からLLMが意味を読み取ってくれる。
つまり、
「どう構造化するか」だけでなく、
「どれだけ情報を残したまま持てるか」も重要になってきている。
半構造化データをどう作るかが差になる
ここで最近感じているのが、
半構造化データの“作り方”そのものが重要になってきているということです。
ただ雑にテキストを残すのではなく、
- どの粒度で区切るか
- どこにラベルをつけるか
- どこまで意味を残すか
こういった設計によって、
後から使えるかどうかが大きく変わる。
LLMの性能が上がるほど、
「綺麗に整える力」だけでなく、
「意味を壊さずに残す力」が重要になる。
そんな感覚があります。
まとめ
LLMの普及によって、
データの扱い方も少し変わってきていると感じています。
- 正確さが必要な部分は構造化する
- 意味や文脈は半構造化で残す
そしてこれからは、
半構造化データをどう作るかも重要になってくる。
すべてを整えすぎるのではなく、
あえて“余白”を残す。
その余白を、LLMが埋めてくれる。
そんな前提で設計することで、
データの使い方はもう一段広がる気がしています。






