メタデータを軸にしたデータ&AI時代の新しい中核業務と、従来型データカタログの変貌
全ての企業がテクノロジーカンパニー化すると言われて10年が経った。2024年現在、LLMを軸にしたAIの台頭により、そういう意味では今後全ての企業がAIカンパニー化しそうな勢いだ。日本企業でも多かれ少なかれ従来のテクノロジーを刷新し、AIを取り入れようと歩みを進めており、それを陰から支えるデータ管理の重要性に光が差している。ERP移行も、データサイエンスも、LLMのRAGも、言わずもがな、企業はデータから戦略的に考えなければ失敗するからである。
INDEX
Quollio Technologiesはそうしたニーズに応えるべく2021年に立ち上がり、特に課題が複雑で濃い、エンタープライズ市場に対して製品を提供している。今回のシリーズA資金調達をいい機会に、この記事ではプロダクトと今後のビジョンについて記載を行う。我々が対象とする領域がどういうモノで何故重要か、幅広く知っていただくような内容にしたい。※ 簡略化のために正確性を犠牲にする部分があるが、どうかご了承いただきたい。
本題の前に、エンタープライズITの歴史を少し探訪
Quollio Technologiesのプロダクトやビジョンを論じる前に、そもそもエンタープライズのデータ分析環境はどう変化してきたのか。ITの歴史的な部分から、SaaSとそれを取り巻く環境、前提を振り返ってみたい。
ソフトウェア全体の歴史でいくと、SAPの創業が1972年に遡る。言わずもがな、ERPの始まりは異なる業務機能間での管理会計を可能にするため、統一のマスタを前提とした業務アプリを現場に強制するところから始まっている。これはつまり経営者がリアルタイムに企業の状態を把握し意思決定を行い、ビジネス価値を最大化するためのもので、現場の業務を楽にするのは後回しであった。今の言葉で言うとUXだが、現場目線でのUXが悪い、という状態。標準データモデルが前提とする入力形式に現場が合わせてください、といった類のものだ。オンプレミスの統合型System of Recordの始まりである。
その後、Salesforceをはじめとするクラウド型のソフトウェア(SaaS)が勃興した。Salesforceの創業は1999年であり、ここからSaaSの利便性により統合型のアンバンドル化が進み、領域特化のソフトウェアが様々出てきた。Salesforce主力のSales Cloudは、営業データのSystem of Recordとしてエンタープライズ企業に導入され、瞬く間に浸透していった。しかし、Sales Cloudは受け入れられたものの、周辺領域であるマーケティング、カスタマーサービスなどの領域では、システム利用者が顧客になることも多く、従来のSystem of Recordの思想である標準データモデルが先、現場UXが後、と言う雰囲気では断ち行かなくなってきた。2011年には、System of Engagementという思想も論文で発表され、System of RecordでRecordを入力する立場である現場従業員のUXも徐々に重要視され始めた。余談だが、UXは日々進化していくものだが、SaaSの提供モデルはこうしたUXのIncremental Enhancementに適していたことで、SaaSの方がUXが良いといった雰囲気が広がった。
さて、アンバンドルが増えると、分散したRecordを再統一して分析したいという管理会計のニーズが当然再帰してくる。しかし他方で、SaaSの普及は止まらず、標準データモデルのもと業務アプリを現場に押し付けるのには限界がある。ここに、Teradataなどの統合型DWHがソリューションとして光を浴び、業務システムを横断した後付けでの統合分析を可能にした。TeradataがNCRから独立し、日本支社を創業したのは2007年である。この統合型DWHの普及のおかげで、管理会計のみならず様々な用途でのデータの統合分析が可能になった。当時のDWHの技術はまだ高額であり、慎重に分析するデータを選んでから分析を行うのが常だったが、その後2008年にHadoopが登場し、さらに2012年にAmazon RedshiftがクラウドDWHとして登場し、これがコスト革命を起こした。ビッグデータ分析の価格が10倍〜1,000倍安価になり、モバイル普及による膨大なログデータの活用(マーケティング・サイエンス)の歴史も相まってビックデータ分析時代が到来する。その後、SAPなど従来の基幹ベンダーもクラウドネイティブのシステムを出したことで一部管理会計の統合分析を吸収していったが、TeradataやRedfhiftはマーケティングやカスタマーサービスなど顧客系システムを中心に、特化型SaaSが既に浸透して基幹レベルでネイティブ統合しきれない世界に軸足を移し、生き長らえる。
少し時が過ぎ、2018年に経産省から2025年の崖が発表される。データ活用時代に備えて、オンプレミスのレガシーERPから2025年までにクラウドの新版に引っ越せというものだ。上述した約30年の流れの中で、日本では基幹業務がグローバル標準と離れていることを理由に、Fit to standardから漏れて膨大なカスタマイズ開発を施してきた。そのため、大規模刷新でクラウド版に引っ越す場合に、従来のカスタマイズを再び実現し膨大な金額を支払うか、システムに業務を標準化することで莫大なBPRを行うか、苦渋の決断を迫られることとなった。多くの企業は全刷新にROIを見いだせないため、既存業務を棄損しない範囲に限定してクラウドERPへ移ることとなり、はみ出した管理会計はDWHとMDMという抽象レイヤーで代替したいという、2000年代を彷彿とさせる統合分析プロジェクトのニーズが再び生まれた。ここに、ストレージとコンピュートの分離により飛躍的なコスト革命をもたらしたSnowflakeやDatabricksが満面の笑みで登場し、TeradataやAmazon Redshiftをリプレイスしたり(しなかったり)しながら、離れゆく定めだった基幹系と情報系の分析世界を丸ごと飲み込もうとしている。今ではSnowflakeやDatabricksはベンチャーマネーを駆使して独自LLMまでも開発し、今度はAIの世界を含めた全てを丸呑みしようとしている、のかもしれない。
減らない、二つの戦略的横断業務
エンタープライズIT環境の繰り返す歴史について、またERPからLLMまで様々振り返った。ここで明らかなのは、システムは集中と分散を繰り返し最適化し続けることと、増え続けるデータ分析(とAI活用)ニーズはデータ統合を前提とする、ということであり、あらゆる企業は以下の横断業務から逃げられないということだ。
- 昔から減らないMaster Data Management、Data Architecture Re-engineeringのニーズ(横断IT最適化を担当するCorporate IT部門)
- 「ITシステムは統廃合を繰り返しており今後も繰り返す」ため、「統廃合が起こるたびにデータモデルの実装を最適に組み変える必要がある」こと。
- 膨大に増え続けるData Science、Analytics Operationのニーズ(横断分析業務を担当するDX部門)
- 管理会計のみならず、顧客分析やDXの文脈、また近年のAI/LLMの動向もあり、「応用分析モデルを組むユースケースと関連業務が今後増え続けて行く」こと。
そして導き出される最も重要な論点として、「データモデルであれ分析モデルであれ、機動的に組み替え続ける必要がある」ことと、それゆえに「機動力を確保するために、企業が持つデータ資産を常時把握しておく必要がある」ということである。先日5月にIPAより発表された経営者のためのデータ経営読本には、データを棚卸ししてカタログを作ることがデータ経営実現へのファーストステップだと記載されていた。社内にどのようなデータがあるのか、事業にどのようなデータが求められているのかを調べるべく、データ資産のカタログ化に取り組むのがただのITマターではなく、企業経営を主語にした際にも不可欠だということに他ならない。
新たな中核業務と専門システムの勃興
データ資産を常時把握しておくことが重要だと書いたが、データ資産を常時把握することは意外と難しい。従業員やお金など他の資産マネジメントもそうだが、企業内にある膨大なリソースの状態を常時把握するためには、責任のデリゲーション(役割)と、膨大なポリシーやプロセス(規則)が必要になる。従業員1万人の企業の社長が全員と1on1して人事評価を行うことはできないし、売上1兆円の企業で社長が全ての請求に対して仕分け業務を行うこともまたできない。これらの代わりには、いつも人事や経理などの役割や、ポリシーやプロセスを反映した一定の業務規則があるはずだ。データ資産を把握するに当たっても、こういった役割と規則による"仕組み作り"が必要になる。また、人事や会計システムと同じように、これらの仕組みが机上の空論にならないように、専用のシステムに落とし込み型化することが重要であり、この受け皿になるのがデータ資産統制(ガバナンス)システムである。データ資産統制システムも言わずもがなSaaSで実現される。後ほど戻ってくるが、Quollio Technologiesはここの提供を営んでいる。
重要な比較として、データ資産統制システムは、その他のデータ分析基盤サービス(ETL、DWH、BI)とは明確に目的が異なる。ETLではInformaticaやTalend、DWHではSnowflakeやDatabricks、BIではTableauやPowerBI、などの基盤用途のツール群が存在するが、これらはデータを収集・整理・分析するものであって、データ資産統制をするためのものではない。ETLはデータの変換と転送、DWHはデータの保管と計算、BIはデータの可視化といった具合に、データ基盤サービスは山頂から蛇口まで水道のような、いわばデータの”パイプライン”を作ることが目的である。一方で、データ資産統制システムは、山頂から蛇口までのパイプラインを抽象化することで、データ資産の状態を鳥瞰的に把握、そして監督する役割を担っている。また合わせて、監督する上で不可欠なその他一式の情報(役割や規則)の入力も行う。
基本的に、データ資産統制システムでは、「データ資産」にあたる「テーブル」「ダッシュボード」などが抽象化されベースオブジェクトとして設計されている。こういったデータ資産に関する抽象化された情報はメタデータと呼ばれ、つまり、メタデータのSystem of Recordとなる業務アプリケーションがデータ資産統制システムの正体である。これは、2030年、2040年とビッグデータやLLMが企業に浸透するにつれて、至極重要なSystem of Recordとなるだろう。
データカタログ製品の変遷と今後
以前から、メタデータを中心に据えた概念や製品は多々あった。DBのアクセス権やCRUDなどのメタデータを保管するData Repositoryという概念や、データ意味定義などのメタデータを記すものとして2000年代以前からData Dictionaryという呼称があり、こうした概念は主にシステムアドミンが必要とするようなものであった。その後、2010年以後からData Catalogと呼ばれる製品群が新しく登場した。特にData Catalogの仕様としては、データサイエンティストや市民ユーザーがデータを発見するための検索ポータルとして生まれた。一部のデータ仮想化やFederated Queryといった市民データサイエンティスト業務向けの側面を推していたデータカタログ企業(DenodoやAlationなど)は、横断データ取得ポータル&データセキュリティという立ち位置を強化("セルフサービス分析"や"データの民主化"を謳う)していく。
しかし、2020年以後、DWHやBIベンダーの検索ポータルへの侵食(データカタログのサイエンティスト向け接点としての地位低下)や、LLMによる自然言語を中心とした市民データ活用導線の盛り上がり(データカタログのデータ民主化手段としての地位低下)によって、データカタログにおける横断データ取得ポータルやデータセキュリティをエンベッドする側面はコモディティ化していった(こうした側面で活躍するメタデータは、「テクニカルメタデータ」と呼ばれる)。また、大企業であればあるほど「全社ポータル」のような掲示板システムは独自UIを作る動機が大きく、その用途だけでベンダーからデータカタログ製品を購入するメリットは低下する。例えば、独自開発であればUIに社内用語を使ったり、色使いやフォントを厳密に定めたりできるほか、数十万人という従業員へ閲覧権限を付与しやすい。運用や保守を考えると独自UI開発が割高になるのは否めないものの、やはりデータカタログ製品ベンダーの提供価値として、検索ポータルUIはコモディティ化を進める。
この流れと反対に、データカタログは、本記事冒頭で記載した「主要な二つの横断業務」を進めるための戦略的なMust Haveとして、データ資産統制の側面を強調するソフトウェアへと軸足を移していくと予想される(データ資産を把握するためには、「ビジネスメタデータ」が非常に重要であり、これは前述した「テクニカルメタデータ」とは大きく性質が異なる)。そもそも、2016年頃からDMBoK2の出版とともにビジネスメタデータ管理に光を当てる動き自体はあり、今後はそこへ回帰する流れとなる。検索ポータルに関しては、データ資産統制システムから様々なUIへメタデータ配信ができれば良く、これは米国で主流になりつつあるActive Metadataの思想にも通ずる。
Quollio Technologies x 博報堂テクノロジーズでのアクティブメタデータ・アーキテクチャの取り組み例(2024年4月に公表)
スタートアップの市場戦略におけるホールプロダクトモデル
ここまでで我々が対象とする領域がどういうモノで何故重要かを記載した。言わずもがな、Quollio Technologiesもデータ資産統制システムの提供を行なっており、2021年の創業から3年間、製品の研究開発・提供を続けている。今年4期目を迎える我々は、今後プロダクトをどう進化させて行くのか、ここから少し記載したい。
ソフトウェアは地面から勝手に生えてくるモノではなく、企業がお金と時間をかけて開発するモノである。当然、数千万円のバジェットで開発できる規模というのは知れており、近年の新興ソフトウェアの完成には数億円から数十億円以上の巨額の投資を前提としている。ボラティリティが高い中で、この規模の投資意思決定は大企業にとって簡単なことではないため、リスクマネーと呼ばれるスタートアップ・エクイティの相性が良いとされている。しかし当然、投資は企業価値(バリュエーション)が前提になるため、創業初期から開発に5年専念するので100億ください、みたいにはいかない。マーケティング論にはホールプロダクトモデル(The Whole Product Model)という共通言語があるが、スタートアップにおいても段階的なソフトウェアの増強を行いつつ都度市場を開拓することで、一定のバリュエーションを前提に投資を集め、最終的に広い顧客需要にミートさせること(=ソフトウェアの完成)を目指すことになる。
https://productlessons.medium.com/a-primer-on-the-whole-product-model-379c010d5ac8
ホールプロダクトモデルでは、最初期の顧客層(Innovators, Early Adopters)へ提供できる原始的な製品をGeneric Productと定義している。期せずして我々Quollio Technologiesも、旧来のData Catalog同様、テクニカルメタデータを扱う原始的なGeneric Productとして始まった。そして、今後のプロダクト開発においてはテクニカルメタデータのみならず、広範なビジネスメタデータを扱い複雑化するデータ資産統制の論点を解決する、Whole Productとしての進化を行っていく。現在では、データの意味定義から、責任者情報、品質観測、リネージ、利用状況に渡るまで、扱えるビジネスメタデータと関連業務の幅を増やし、ホールプロダクトに向けて着実な進化を遂げている。
Quollio Technologiesの今後の世界観とプロダクトビジョン
Quollio Technologiesは、更なる管理体験のブラッシュアップと関連領域への進出を今後予定している。データ資産統制システムにおける方向性を暗示するものとして、2030年に向けてのマクロな世界観である以下の2つが挙げられる。
- OpenAIから生成AIが発表され一般化した2023年春以前と、その以後でダイナミズムの前提は大きく変化したということ
- ファイナンス志向に長けたDWHベンダーのSnowflakeとDatabricksが周辺領域を今後も食い尽くしていくこと
DWH、ETL、BIに関係する各社が上記を鑑み、1.2.どちらにも被らない立ち位置というランチェスター観点で自身のValue Propositionをダイナミックに動かしており、旧来のData Catalogベンダーも同様に動いていると推察される。データカタログにおける検索ポータルがコモディティ化するのは既に書いた通りだが、データ資産統制に関わる業務周辺の特筆事項については、加えて以下の2つが重要となると見ている。
- 戦略からの優先順位付けとアジャイルの発想が重要
- データ資産統制業務で扱うべきビジネスメタデータは膨大であるため、戦略やビジネス要求からの優先順位付けとイタレーションによる改善がより重要になる。膨大な準備を行いリリースする静的なデータガバナンスと違って、これは俗にアジャイル・データガバナンスと呼ばれ、オンデマンド的・マーケットイン的なデータ資産統制の立ち位置を取る。つまりビジネス要求の情報整備が非常に重要。
- 設計によりHuman-in-the-loopを自動化することが重要
- 上記のみならず、改善フローをプロアクティブ的・プロダクトアウト的に回すことも依然として重要。ここで、ビジネスメタデータ入力業務に関してAI自動生成は強力な補助になるが、保証の観点からドラフト作成に留まる。今後のデータ資産統制では、人間による承認の仕組みをどう組むかが重要であり、前提となる役割や運用フローの設計とシステムへの落とし込みが以前にも増して重要。
総じて、これからは”戦略”とか"設計"とか、そういった何か”宣言的(Declarilative)なもの”に対して価値が上昇していくと見ている。そこはミドルウェアなどのMachineで自動収集できず、生成AIが自動化しきれない世界であり、企業意思(WILL)の世界。極めて人間に依存した”正解” = "Record" の入力を都度要求する領域であり、我々のようなデータ資産統制システムがApplicationとして力を発揮する部分でもある。Quollio Technologiesは、今後こういった宣言的な世界への注力を前提にし、製品開発を行なっていく。
データ資産統制システムは、メタデータオペレーションが重要に。特に、人間による"Record"の入力を前提とする、戦略・設計寄りの部分とワークフローがコアになっていく。
終わりに
少し長い内容となったが、本記事ではエンタープライズITの歴史から、何故メタデータを中心としたデータ資産統制システムが必要となっているか、今までのデータカタログとどう違うか、そこをQuollioはどう科学し、製品に落とし込んでいるかを記載した。また今後は、社会的なAGI(Artificial General Intelligence)の実現に備えて、AIガバナンスといった領域も重要になり、ここでもメタデータが活用されていくだろう。今回のシリーズAラウンドによる資金調達を経て、Quollio Technologiesのエクイティでの累計資金調達額は10億円を突破し、ホールプロダクトへの着実な進化を進めている。
ビジネスオリエンティッドを前提に、専門性と開発力の両軸で日本企業に革新を起こしていく。データテクノロジー専門集団としてのQuollio Technologiesの今後に、是非注目してほしい。
参考文献
「全ての企業は“IT企業”に」、ITの未来を大胆予測---Gartner Symposium/ITxpo 2013 安井 晴海https://xtech.nikkei.com/it/article/COLUMN/20131024/513514/
System of Records Part 1: Evolution and Challenges Published in
Point Nine Land
https://medium.com/point-nine-news/system-of-records-part-1-evolution-and-challenges-1b1e700597e8
systems of engagement By Ben Cole, Executive Editor
https://www.techtarget.com/searchcio/definition/systems-of-engagement
ビッグデータも「統合」がカギ、TeradataとHadoopで「ニッポンの課題解決エンジン」を目指すヤフー by浅井英二,ITmedia
https://www.itmedia.co.jp/enterprise/articles/1403/25/news030.html
Amazon Redshiftとは[前編] 藤川幸一(ふじかわこういち)
https://gihyo.jp/dev/serial/01/redshift/0001
経営者のための データ経営読本 by 独立行政法人情報処理推進機構 デジタル基盤センター
https://www.ipa.go.jp/digital/data/m42obm000000flkc-att/dsa001-data-management-guidebook-for-managers.pdf?fbclid=IwAR3IaAEu7SFvIvbcNajBn0BO5bLe6a_15yA0CQ2kPK6QteKzMIeqNczcyOw
メタデータ管理の全体像、データカタログを活用して効率化 by 日経クロステック 川上 明久 https://xtech.nikkei.com/atcl/nxt/column/18/02358/080300017/
“現実的に機能”する
データインテリジェンスへの
唯一の選択肢
データインテリジェンスに関して、今後の進め方のご相談やデモをご希望の方は、お気軽にお問い合わせください。