ReliantのペーパースキャンAIが科学のデータ労働に取り組む

By 秒速ニュース On Sunday, October 20 2024

AIモデルは多くのことができることが証明されていますが、実際にそれらにやってもらいたいタスクは何ですか？できれば骨の折れる作業 - 研究や学術界にはそのようなことがたくさんあります。Reliantは、疲れた大学院生やインターンの専門分野である、時間のかかるデータ抽出作業に特化することを目指しています。

CEOのKarl Moritzは、「AIを使った最も良いことは、人間の経験を向上させることです：道具となる労働を減らし、人々に重要なことをやらせることです。」と述べています。彼と共同設立者のMarc Bellemare、Richard Schlegelは数年間研究界で働いており、文献レビューがこの「道具となる労働」の最も一般的な例の1つであると述べています。

全ての論文は以前の研究や関連研究を引用していますが、科学の海の中からそれらの情報を見つけることは簡単ではありません。システマティック・レビューなど一部の研究は、数千もの引用やデータを使用しています。

ある研究について、モリッツは「著者たちは3,500の科学文献を調べる必要があり、そのうち多くは関連がなかった。少量の有用な情報を抽出するために膨大な時間が費やされました−これはAIによって自動化されるべきだと感じました。」と述べています。

彼らは、現代の言語モデルがそれを行うことができると思っていました：1つの実験ではChatGPTをこのタスクに投入し、データを11%のエラー率で抽出できたことがわかりました。LLMsができることの1つとしては、これは印象的ですが、実際に人々が必要とするものとは異なります。

「それでは十分ではありません」とモリッツは述べています。「これらの知識タスクにとっては、ちっぽけながらも、間違いを犯してはならないということが非常に重要です。」

Reliantの中核製品であるTabularは、部分的にLLM（LLaMa 3.1）に基づいていますが、他の独自の技術で強化されており、効果が格段に向上しています。前述の数千の研究からのデータ抽出課題について、彼らは同じタスクをゼロエラーで遂行したと述べています。

これは、1,000の文書を入力し、それらからこれ、それ、その他のデータを抽出したいと言った場合、Reliantがそれらを調査し、情報を見つけ出すことを意味します−それが完璧にラベル付けされ且つ構造化されたかどうかに関係なく。そして、そのすべてのデータと希望する分析を素敵なUIに表示して、個々のケースにまで入り込むことができます。

「ユーザーはすべてのデータを同時に操作できる必要があり、私たちは、ユーザーが自分の注意をどこに向けるかを見つけるのを手伝う役割を果たしています」とモリッツは述べています。

AIのこのカスタマイズされた効果的な応用−デジタルフレンドよりは目立たないかもしれませんが、ほぼ間違いなく実用的です−これは多くの高度な技術領域で科学を加速させる可能性があります。投資家たちはこの点に注目し、1,130万ドルのシードラウンドを資金提供しました。Tola CapitalとInovia Capitalがリードし、エンジェルのMike Volpiも参加しています。

Reliantの技術は非常にコンピューティング資源を必要とするため、同社は大手プロバイダーからレンタルするのではなく、独自のハードウェアを購入しています。ハードウェアを社内で運用することにはリスクとリワードがあります−これらの高価な機械を自己資金で賄わなければなりませんが、専用の計算資源を使って問題領域に取り組む機会を得ることができます。

「私たちが見つけた課題の1つは、回答を得るための時間が限られている場合に、適切な回答をするのは非常に難しいことです」とモリッツは説明しています−例えば、科学者が100の論文に新しいデータ抽出や解析のタスクを依頼した場合。速く行うか、よく行うか、どちらか一方を選択する必要があります−ユーザーが何を尋ねるかを予測し、回答を見つけたり、あるいはそれと類似の回答を事前に準備するといった方法でなければなりません。

「問題は、多くの人々が同じ質問をしているので、われわれが彼らが尋ねる前に回答を見つけることができる、すなわち出発点とすることができる点にあります」と科学担当最高責任者であるベルマルは述べています。「私たちは100ページのテキストを別のものに簡略化できることができますが、それが正確に求めているものではないかもしれませんが、私たちにとっては取り扱いやすいです。」

1000冊の小説から意味を抽出する場合、誰かがキャラクターの名前を求めるまで待つか、すでにデータが欲しいという前提であらかじめその作業を行うか、と考えてみてください。間違いなく、後者で行うでしょう−余分な計算資源がある場合には（場所、日付、関係なども含むこと）。

この事前の抽出は、さまざまな科学領域で見られる必然的な曖昧さや仮定を解決するための時間をモデルに提供します。ある指標が他を「示す」場合、製薬業界と病理学や臨床試験での意味が同じであるとは限りません。さらに、言語モデルは特定の質問の仕方によって異なる出力を出す傾向があります。そのため、Reliantの役割は曖昧さを確実さに変えることであり、「これは、特定の科学や領域に投資することをしない限り、達成することはできない」とモリッツは指摘しています。

会社として、Reliantの最初の焦点は、技術が自己資金を賄えるかどうかを確立することにあります。モリッツは、「面白い進展を遂げるためには、大きなビジョンを持つ必要がありますが、具体的なことから始める必要があります。スタートアップの存続の観点から、私たちは営利企業に焦点を当てています。彼らは私たちのGPUのためのお金を提供してくれるからです。私たちはこれを顧客に対して損失を被って販売していません。」と述べています。

OpenAIやAnthropicなどの企業から、データベース管理やコーディングのようなより構成化されたタスクを処理するために資金を提供している企業やCohereやScaleの実装パートナーから、競争が激しくなると予想されるかもしれません。しかし、ベルマルは楽観的です。「私たちは地盤を築いて構築しています—技術スタックのどんな改善も私たちにとっては素晴らしいものです。LLMはたぶん8つの大きな機械学習モデルの1つです−他のモデルは完全に私たちの独自のもので、私たちのデータから一から作り上げられています。」

バイオテクノロジーと研究業界がAI主導のものに変わりつつある過程は、確かに始まったばかりであり、数年間はかなり雑多な状態が続くかもしれません。しかし、Reliantは着実な足場を見つけたようです。

「95％の解決策が必要で、たまに顧客に謝罪するだけで良いなら、素晴らしいことです」とモリッツは述べています。「私たちは、精度と再現性が本当に重要であり、間違いが本当に大事なところで機を逸しており、それで十分です。残りの部分は他の人に任せるのが幸せです。」