Anodd yw creu geiriau Cymraeg
Mi orfodaf ddylunio sustem i greu geiriau ffug ar gyfer un o’m modiwlau Meistr Technoleg Iaith yma ym Mhrifysgol Bangor. Gallir dod o hyd y ripo yma. Erbyn hyn, mae fy sustem yn gallu creu geiriau ffug eithaf credadwy yn Saesneg ac yn Llydaweg. Mae o wedi dysgu beth yw hyd normal gair, beth yw sillafau, sef dodi grwpiau lleisiol a chytseiniol bob yn ail, ac mae hyn yn ddigon i greu geiriau Llydaweg neu Saesneg. Gan un gell LSTM o 32 dimensiwn cudd a 16 dimensiwn gwreiddio yn unig (7 723 o baramedrau, dim ond tua ugain eiliad i’w hyfforddi dros ugain cyfnod) y cafwyd geiriau braf fel y rhain (entropi croes o 2.0576 gan ei set cadarnhau):
insectorsuppodingstate # go iawnpack # go iawnsplinstonophectcarnourfingsollingrescrapportanancebatter # go iawntender # go iawnsinger # go iawnmonelsperiationbastter # unig gair annhebygolconconiumprominatepolricatesuppricisepending # go iawnfaster # go iawnscreatingconvituresubstinateclandconsectionperterrickshartharrictingcontent # go iawnspeadlinger # go iawnching # go iawn, ond anodd ;)...
Ond mae’r Gymraeg yn wahanol, dyna’r math o eiriau a ges i, gan fodel o 103 323 o baramedrau (tair haenen o LSTM gan 64 dimensiwn cudd a 64 dimensiwn gwreiddio) gan fodel a oedd yn rhoi entropi croes o 1.863:
pendrodolbromennoddiarfmeillcymoeddicyfanodidwysaigwaddodai # go iawnrhagwybyddiadtreigl # gair go iawncydgynnodai # ymacyfarfyddoganghyforthwyrcydgyfnewidiaisodroadchwyddiclawsgledigcyfeiliasaibreisia # go iawn, berf gyfuncydgroesolesgynn # yma hefydcrilionanghyfleithiacwpilediadoldieithafcydyriaicyflytharhwyniadcollancoegengorchwellsylliocyngyfantiocyfrysiaiblawnolhyddiadcadasai # go iawn, berf gyfunargafodacyfryngawrcyfrodi...
Mae’r geiriau yn edrych Cymraeg, cywir, ond fel gellir gweld, mae rhai ohonynt yn torri rheolau orthograffig yr iaith. Ni cheir yr “nn” hir ond mewn siliaf byr acennog: cydgynnodai, byddai’n gywir cydgynodai neu cydgynnod, fel ceir cynnod, cynodau yn y geiriadur. I ddeall yna, mae rhaid i’r model deall lle mae’r acen mewn gair Gymraeg, a gwneud cysylltiad rhyngddi a’r grŵp cytseiniol “nn” (neu “nh”, a “rr”, a “rh”, a “ngh”…). Ond sut i wneud hynna pan geir cymaint o eiriau yn dechrau gan y rhagddodiad “an-” + treigliad trwynol; mae hynna’n wir annaliadwy, hyd yn oed i dair cell LSTM mawr…
Y cwestiwn ydyw, ai fedrai transformers wneud gwell?