注目ポイント
2023年9月14日から開催された『日本・台湾スタートアップサミット』にあわせて、総勢40社以上の台湾スタートアップが来日した。日本市場への販路拡大や日本からの資金調達ならびに企業との協働を探る。
同社によれば、その保有するKOLたちのデータは、日本、台湾、香港、マレーシアなど、100万件を超えるという。日本のD2C(中間業社を通さず、直接ユーザーにEC等で販売する)企業に対して、同社はマッチング以上のサービスを謳う。

エッジコンピューティング+AIが切り拓く音声処理の未来
AIの多くは機械学習と深層学習を用いて、判断や予測を行うが、特に機械学習では大量のデータが必要となり、深層学習では複雑な処理が必要となるため、膨大なコンピューティング・パワーとサーバ資源を要する。そのため、エッジコンピューティングは、補完的に用いられることで、より端末側に近いところで処理を行うため、速度向上に役立つ。
特に音声などの処理に関してはリアルタイムに近い処理速度が求められるため、エッジコンピューティングの活用は必須ともいえる。
Ubestream incは、AIによるセマンティック(意味を解釈可能)な音声処理技術を有する企業である。クラウドと膨大な計算資源の補完として、先述したエッジコンピューティングも組み合わせたかたちで、処理を行い、よりユーザーに近い場所で音声データにかかわるサービスを提供する。
たとえば、STT(スピーチ・トゥ・テキスト)は話した言葉をテキストデータに起こし、TTS(テキスト・トゥ・スピーチ)では、テキストデータを合成音声などに喋らせる。
そこに、NLU(自然言語理解)やASR(自動音声認識)、KWS(キーワード・スポッティング〜特定のキーワードだけ抜き出すこと)が加わることで、合成音声によるサービスは無限の可能性を帯びてくる。
同社のCEO、蘇 育民(そ・いくみん)博士に、Ubestreamの技術を使ったデモ動画を見せてもらった。そこでは野球場に来場していたファンの会話をAIが解釈し、字幕に起こすというものだ。まさに普通に話される会話なのだが、その正確性はかなり精度が高かった。同博士によれば、90〜95%とのことだ。
そして、同社のサービスでは、それを多言語に翻訳するデモや、中国語に英語が混ざった自然言語を話す人の言葉を、完全に区別する。
また、同社は人それぞれの声に唯一無にの特徴があるため、その声紋をIDとして認識する技術を有している。三人の男女が話す言葉をAIが理解して、それぞれの声を瞬時に色分けしてテキストデータにするデモ、さらには英語を話すインド人の話者の声から合成音声を生成し、それを多言語で話させるなど、まさに合成音声の未来を見た気がする。