ぽぽろん研究所のサムシング

twitter:@poporon_labもよろしく

新しいリアルタイム音声変換ソフトを見つけた【2023/05/16】

こんにちは、ぽぽろん研究所です。

今日は月曜日のある日。休日の次の日なので当然の如く、私は現実に絶望していました。そんなときはTwitterとかでも見ながらなんとなくで時間を弄ぶに限ります。

そんな電子の海をさまよっているときに一つ面白そうなものを見つけました。「Koemake RVC Player」です。

koemake.com

Koemakeはリアルタイム音声変換ソフトで、簡単に言うと喋った言葉をすぐにいい感じの声に変換してくれるソフトです。今回のモデルの場合は幼いカワイイ系の声にしてくれます。他のソフトだとVoidolとかが近いように感じます。恋声も近いかもしれないですが、こちらは話題のAIというわけではないです。

Koemakeを試してみた感想としては、Voidolに比べてある程度の自由度とクオリティがあるように感じました。設定項目がVoidolでは4パターンくらいしかなく、若干自由度が低かったが、KoemakeではKey調整を30段階くらいで調整できるのは良かったです。設定もややこしくなく、簡単なのも良かったです。

Window画面
出力音声についてはVoidolとは系統が違うので比較が難しいですが、フリーだからクオリティが低いということもなく、Voidolと遜色がないように感じました。あとは好みの問題だと思います。

欠点としては非常に要求リソースが高いということです。Voidolは比較的軽量で動作させやすいですが、Koemakeはある種のゲームくらいの要求スペックがあるように感じました。うちのPCはi7-7700, GTX1070という骨董品を使っていますが、この環境でCPU使用率が70%、GPUのCUDA使用率が40%となっていました。動作要求にもVRAM4GB以上のNVIDIAGPUとなっているので、そこそこのGPUを積んだゲーミングPCは必要そうです。現行のエントリーモデルのRTX3050と13世代i5とかなら余裕で動くと思いますが、生配信しながらは配信内容によってま厳しくなるかもしれないです。ちなみにRAMの使用量は1.5GBくらいでした。
また、即応性も少し低かったです。ワンテンポと言うよりは一言遅れて出力されるように感じました。これはCPUやGPUの性能もあるので、うちの骨董品では評価の難しいところですが、Voidolと比較しても圧倒的に遅かったです。

個人的に綺麗に出力させるコツとしては、可能な限りノイズを入力音声に入れず、ゆっくりと話すことが大事に思いました。ノイズや音割れを入力させてしまうと、それらが変換されて変なフレーズに変換されたり、音割れる原因になります。LogicoolC902nの内蔵マイクとオーテクのAT2020USB+で比較したところ圧倒的にAT2020USB+のほうが良かったです。また、話す声が早すぎると、声質てきに違和感を覚えるような感じもあったので、ゆっくりめのほうが自然に変換されるように感じました。

要求スペックを考えると若干使いにくさもありますが、比較的高クオリティでフリーなので試してみる価値はあると思いました。PCやらマイクやらを揃えることを考えると、ソフトがフリーでも敷居は少し高いかもしれないですね。

どうでもいいですが、Koemakeのファイルの中身がPython関連のファイルが見えたので、Pyinstallerでexeにして配信してるのかな?とか考えいまいた。

それでは、また次回。