Anodd yw creu geiriau Cymraeg
Mi orfodaf ddylunio sustem i greu geiriau ffug ar gyfer un o’m modiwlau Meistr Technoleg Iaith yma ym Mhrifysgol Bangor. Gallir dod o hyd y ripo yma. Erbyn hyn, mae fy sustem yn gallu creu geiriau ffug eithaf credadwy yn Saesneg ac yn Llydaweg. Mae o wedi dysgu beth yw hyd normal gair, beth yw sillafau, sef dodi grwpiau lleisiol a chytseiniol bob yn ail, ac mae hyn yn ddigon i greu geiriau Llydaweg neu Saesneg. Gan un gell LSTM o 32 dimensiwn cudd a 16 dimensiwn gwreiddio yn unig (7 723 o baramedrau, dim ond tua ugain eiliad i’w hyfforddi dros ugain cyfnod) y cafwyd geiriau braf fel y rhain (entropi croes o 2.0576 gan ei set cadarnhau):
insectorsuppodingstate # go iawnpack # go iawnsplinstonophectcarnourfingsollingrescrapportanancebatter # go iawntender # go iawnsinger # go iawnmonelsperiationbastter # unig gair annhebygolconconiumprominatepolricatesuppricisepending # go iawnfaster # go iawnscreatingconvituresubstinateclandconsectionperterrickshartharrictingcontent # go iawnspeadlinger # go iawnching # go iawn, ond anodd ;)...Ond mae’r Gymraeg yn wahanol, dyna’r math o eiriau a ges i, gan fodel o 103 323 o baramedrau (tair haenen o LSTM gan 64 dimensiwn cudd a 64 dimensiwn gwreiddio) gan fodel a oedd yn rhoi entropi croes o 1.863:
pendrodolbromennoddiarfmeillcymoeddicyfanodidwysaigwaddodai # go iawnrhagwybyddiadtreigl # gair go iawncydgynnodai # ymacyfarfyddoganghyforthwyrcydgyfnewidiaisodroadchwyddiclawsgledigcyfeiliasaibreisia # go iawn, berf gyfuncydgroesolesgynn # yma hefydcrilionanghyfleithiacwpilediadoldieithafcydyriaicyflytharhwyniadcollancoegengorchwellsylliocyngyfantiocyfrysiaiblawnolhyddiadcadasai # go iawn, berf gyfunargafodacyfryngawrcyfrodi...Mae’r geiriau yn edrych Cymraeg, cywir, ond fel gellir gweld, mae rhai ohonynt yn torri rheolau orthograffig yr iaith. Ni cheir yr “nn” hir ond mewn siliaf byr acennog: cydgynnodai, byddai’n gywir cydgynodai neu cydgynnod, fel ceir cynnod, cynodau yn y geiriadur. I ddeall yna, mae rhaid i’r model deall lle mae’r acen mewn gair Gymraeg, a gwneud cysylltiad rhyngddi a’r grŵp cytseiniol “nn” (neu “nh”, a “rr”, a “rh”, a “ngh”…). Ond sut i wneud hynna pan geir cymaint o eiriau yn dechrau gan y rhagddodiad “an-” + treigliad trwynol; mae hynna’n wir annaliadwy, hyd yn oed i dair cell LSTM mawr…
Y cwestiwn ydyw, ai fedrai transformers wneud gwell?