募集背景
Rimo Voiceは動画をアップロードし、文字起こし、話者分離、議事録作成をするサービスです。今後はこのデータをもとに、人事評価や経営判断までAIができるようにすることも目指しています。
この領域はつまり、音声認識や言語処理で、GoogleやMicrosoftが扱っている領域を真っ向勝負しているプロダクトともいうことができるかと思います。UI/UXでGoogle MeetやDocs / Teams などと差別化するのももちろんですが、その本質はやはり機械学習にあり、日本語領域においてはそれらのサービスに引けをとらない精度が必要だと思っています。
実際に、精度面では日本語においてGoogleのAPIなども凌駕できており、それがサービスの拡大につながっていますが、WhisperやChatGPTなどが出てきている今、あぐらをかいている場合ではない認識です。
代表の自分(相川がこの文章を書いています)は、昔 Microsoft Researchのインターンなども行き、研究も好きでしたが、データがないと始まらない部分や、大学ではメインストリートの研究では論文が書けず、結局重箱の隅をつつくような研究をするしかないことが辛いなと思ってエンジニアリングの道に進み、Googleやベンチャーで経験を積み、今この領域でチャレンジを始めました。
この領域で一緒にチャレンジしてくれる機械学習エンジニアを求めています。
業務内容
RimoはInputが動画という特性上、音声・言語・画像のどれを処理できる機械学習エンジニアで全方位で求めています。具体的には以下のような業務がありますが、この先作りたくて公開できないものも多いので、これだけにとどまりません。
- [音声認識] 文字起こし、話者分離
- 最近はWhisperのファインチューニングがメインテーマになっています。
- Facebook(Meta)なども良いものを出してきているので別の方法でもいいです。
- 話者分離も、高速で、精度が良く、事前の声紋があるときにも使え、ないときにも使えるなどの条件を全て満たすものがなかなかなく、この領域も鋭意探索中です。
- [言語処理] 要約/議事録生成
- ここはWritingだと記事生成、商談だとSalesForceに入力する項目を自動抽出など応用により変化します。
- ここはChatGPT等を利用できるため、プロンプトエンジニアリングも重要です。
- ローカルLLMを利用することもできますが、費用対効果が現状薄そうなので現状そこまで手を出さない判断です。今後この判断は覆ることがあり得ます。
- 要約や抽出箇所のオリジナルの場所を特定する必要があるため、そこは自前で行っています
- ToDoの抽出などではChatGPTの処理の後に、誰がいつまでにやるべきかなどをさらに推論しより精度を上げる必要がありそうです
- [画像認識] 動画からの情報抽出
- 資料を共有しているところを見つけ出してその中身も議事録に反映させる
- 顔認識を通じて、動画からの話者分離
求める人物像
要件としては、Kagglerでも大学の助教授や、企業の研究所の方、MLエンジニアでも大丈夫です。
ただし、Rimoは調達なしで売上から皆の給与を出し、一人当たり給与を上げようと努力している組織なことは頭に入れておいてください。現状、サーバー代を莫大に使い、成果が1年以内に出るかわからないものには投資できないです。 それを分かった上で、まずは1ヶ月で実装方針が立つものから始め、3-6ヶ月で身を結ぶものをユーザーに届けていくことを楽しめる人が向いているかと思います。
また、副業で働いてくれている人で論文を何本も国際学会に通してICPCなどでも世界大会経験のある人がいるため、機械学習の知識はないけれど、実装力には自信があって色々実験できますという人でも大丈夫です。
必須スキル
- 求める人物像に書いた内容に当てはまっていること
歓迎スキル
- タスクをKaggleのように整理でき、データセットを準備し解ける問題にできる
- コードを高速にできる限りバグを出さずに書くノウハウを持っている
- 特定のタスクが与えられたとき、そのデータセット、論文、実装済みコードを探せる
- 採用候補者のいるような学会の論文を書き、スポンサードし、Rimoの代表として学会に参加できる
この仕事の魅力
- 機械学習の内容自体が面白い。(←これが一番よね)
- 音声認識×GPTという世の中のトレンドを捉えたサービスであることから、利用者を飛躍的に向上させるチャンスがある。現在も契約者数が急増中。
- 世界展開を計画しており、プロダクトを日本だけではなく世界に広げて行ける。
開発環境
言語:Python, Go, TypeScript フレームワーク:pytorch, fastAPI, sklearn, openai api, LangChain, gin, React(Next.js), データベース:Firestore(Firebase), BigQuery ソースコード管理:GitHub 情報共有ツール:Slack, Zoom, Notion, Rimo インフラ:GCP(Kubernetes Engine, Cloud Run)