Glavni Inovacija Googlova nova umetna inteligenca pretvorbe besedila v govor je tako dobra, da stavimo, da je ne morete prepoznati od pravega človeka

Googlova nova umetna inteligenca pretvorbe besedila v govor je tako dobra, da stavimo, da je ne morete prepoznati od pravega človeka

Vaš Horoskop Za Jutri

Ali lahko ugotovite razliko med računalniškim govorom, ustvarjenim z umetno inteligenco, in resničnim živim človekom? Mogoče ste že od nekdaj mislili, da lahko. Mogoče sta vam všeč Alexa in Siri, vendar verjamete, da ne bi nikoli zamenjali nobene z dejansko žensko.

Stvari bodo kmalu postale veliko bolj zanimive. Googlovi inženirji so trdo delali pri ustvarjanju sistema za pretvorbo besedila v govor, imenovanega Tacotron 2 . Po navedbah a papir objavili so ta mesec, sistem najprej ustvari spektrogram besedila, vizualno predstavitev, kako bi moral zveneti govor. Ta slika je dana prek Googlovega obstoječega algoritma WaveNet, ki sliko ustvarja izredno naravni človeški govor.

Lindsay Wagner neto vrednost 2016

Z uporabo te metode raziskovalci poročajo: 'Naš model doseže povprečno oceno mnenja (MOS) 4,53, primerljivo z oceno MOS 4,58 za profesionalno posnet govor.' (Povprečna ocena mnenja je telekomunikacijski izraz, ki meri, kako resnično nekaj zveni.)

Kot dokazujejo Googlovi avdio vzorci, lahko Tacotron 2 iz konteksta zazna razliko med samostalnikom 'puščava' in glagolom 'puščava' ter samostalnikom 'sedanjost' in glagolom 'sedanjost' ter temu primerno spremeni izgovorjavo. Poudarek lahko da na velikimi črkami in uporabi pravilno pregibanje pri postavljanju vprašanja, namesto da bi dal izjavo.

In lahko ustvari besedilo, ki zveni tako podobno človeškemu govoru, da je težko ali nemogoče vedeti razliko. Če želite preveriti, kako težko je, pojdite do Googla stran z vzorci zvoka in se pomaknite navzdol do zadnjega sklopa vzorcev z naslovom 'Tacotron 2 ali Human?' Tam boste našli Tacotron 2 in resnično osebo, ki bo izrekla stavke, na primer: 'To dekle je posnelo video o šminki Star Wars'

SPOILER OPOZORILO: Če se želite preizkusiti, poslušajte vzorce in uganite, kateri je, preden preberete preostanek tega stolpca.

Kateri vzorci so torej besedilo v govor in kateri resnični človeški glas? Googlovi inženirji ne trdijo, vendar so pustili zelo velik namig. Vsak od vzorcev datotek .wav ima ime datoteke, ki vsebuje bodisi izraz 'gen' ali 'gt'. Glede na prispevek je zelo verjetno, da 'gen' označuje govor, ki ga ustvarja Tacotron 2, in 'gt' je pravi človeški govor. ('GT' verjetno pomeni 'resnica na tleh', izraz strojnega učenja, ki v bistvu pomeni 'resnična stvar'.)

Ob predpostavki, da je to pravilno, tukaj so odgovori na test:

meagan dober mož neto vrednost

'To dekle je posnelo video o šminki Star Wars.'

Vzorec 1: Pravi človek

Vzorec 2: Tacotron 2

'Doktorirala je iz sociologije na univerzi Columbia.'

Vzorec 1: Tacotron 2

Vzorec 2: Pravi človek

'George Washington je bil prvi predsednik ZDA.'

Vzorec 1: Tacotron 2

Vzorec 2: Pravi človek

neto vrednost janice dickinson 2015

'Prezaseden sem za romantiko.'

Vzorec 1: Pravi človek

Vzorec 2: Tacotron 2

Koliko ste dobili prav? In bi resnično lahko razlikovali ali pa ste morali le ugibati?