Zaɓi Harshe

Bambance-bambancen Rarraba Kalmomi a matsayin Nuna Bambanci a Cibiyar Sadarwa a Manyan Samfuran Harshe

Nazarin bambance-bambancen ingancin rarraba kalmomi a cikin harsuna sama da 200 wanda ke nuna tsarin rashin daidaiton lissafi a cikin tsarin AI na harsuna daban-daban.
aicomputetoken.org | PDF Size: 1.8 MB
Kima: 4.5/5
Kimarku
Kun riga kun ƙididdige wannan takarda
Murfin Takardar PDF - Bambance-bambancen Rarraba Kalmomi a matsayin Nuna Bambanci a Cibiyar Sadarwa a Manyan Samfuran Harshe

Teburin Abubuwan Ciki

Harsuna 200+

An yi bincike ta amfani da ma'auni na FLORES-200

RTC Mai Tsada 3-5x

Ga harsunan da ba na Latin ba idan aka kwatanta da na Latin

Bambance-bambance Masu Girma

An gano tsarin rashin daidaiton lissafi

1. Gabatarwa

Ci gaban da aka samu a cikin manyan samfuran harshe (LLMs) sun canza sarrafa harshe na halitta, duk da haka waɗannan ci gaban sun fi mayar da hankali ne akan harsuna masu albarkatu, musamman Turanci. Wannan ya haifar da manyan cikas ga mafi yawan harsunan duniya waɗanda ba a wakilta su yadda ya kamata ba a cikin bincike da kuma aiwatar da fasaha. Rarraba kalmomi, matakin farko na sarrafa rubutu wanda ke canza rubutun danye zuwa rabe-rabe na kalmomi, ya zama muhimmin abu amma wanda ba a bincika shi sosai ba wanda ke haifar da waɗannan bambance-bambance.

2. Hanyar Bincike

2.1 Tsarin Gwaji

Binciken ya gudanar da babban kimantawa na ingancin rarraba kalmomi a cikin harsuna sama da 200 ta amfani da ma'auni na FLORES-200. An yi amfani da daidaitaccen tsarin gwaji tare da ka'idojin sarrafawa da daidaitawa iri ɗaya, sannan kuma an yi rarraba kalmomi iri ɗaya ta cikin ɗakin karatu na tiktoken a cikin duk samfuran harshe.

2.2 Ma'aunin Kimantawa

An tattara cikakkun ƙididdiga na rarraba kalmomi ta amfani da ingantattun ma'auni na kimantawa:

  • Kalmomi Kowane Jumla (TPS): Yana auna matsakaita adadin kalmomin da ake buƙata don wakiltar jumla
  • Kudin Rarraba Kalmomi Dangane da Sauran (RTC): An yi kwatankwacin da ma'auni na Turanci don ƙididdige bambance-bambancen inganci

3. Sakamako da Bincike

3.1 Ingantaccen Rarraba Kalmomi Tsakanin Harsuna

Binciken tsakanin harsuna ya nuna manyan bambance-bambance na tsari: Harsunan rubutun Latin suna nuna ingantaccen rarraba kalmomi akai-akai, yayin da harsunan da ba na Latin ba da kuma waɗanda ke da sarkakiya mai sarƙaƙiya sukan haifar da hauhawar kalmomi sosai. Matsakaicin Kudin Rarraba Kalmomi Dangane da Sauran (RTC) sau da yawa yana kaiwa sau 3-5 mafi girma ga harsunan da ba a wakilta su yadda ya kamata ba idan aka kwatanta da ma'auni na Turanci.

Hoto na 1: Ingantaccen Rarraba Kalmomi Ta Rubutun Harshe

Ginshiƙin zane ya nuna bayyanannen sifofi: Harsunan rubutun Latin (Turanci, Sifen, Faransanci) suna nuna ma'auni na RTC kusa da 1.0, yayin da rubutun da ba na Latin ba (Larabci, Sinanci, Hindi) da kuma harsuna masu sarƙaƙiyar sifofi (Yaren Finnish, Yaren Turkiyya) suka nuna ma'auni na RTC na 3.0-5.0, wanda ke nuna buƙatun lissafi masu yawa sosai.

3.2 Tasirin Kudin Lissafi

Waɗannan rashin ingancin rarraba kalmomi suna haifar da ƙarin farashin lissafi da rage amfani da ingantaccen mahallin ma'ana ga harsunan da ba a wakilta su yadda ya kamata ba. Binciken ya nuna cewa masu magana da harsunan da ba su da albarkatu da waɗanda ba na Latin ba suna fuskantar rashi na lissafi da bai dace ba a cikin tsarin AI na yanzu.

4. Tsarin Fasaha

4.1 Tsarin Lissafi

An ayyana mahimman ma'auni ta hanyar lissafi kamar haka:

Kalmomi Kowane Jumla (TPS): $TPS = \frac{\sum_{i=1}^{N} t_i}{N}$ inda $t_i$ ke wakiltar kalmomin da ke cikin jumla $i$, $N$ kuma jimlar jumloli ne

Kudin Rarraba Kalmomi Dangane da Sauran (RTC): $RTC = \frac{TPS_{harshe}}{TPS_{tur}}$ inda $TPS_{tur}$ shine ma'auni na Turanci

Ma'aunin Haɓakar Kalmomi (TIF): $TIF = \frac{RTC_{ba-latin}}{RTC_{latin}}$ yana ƙididdige bambanci tsakanin nau'ikan rubutu

4.2 Cikakkun Bayanai na Aiwatarwa

Duk da yake binciken bai bayar da takamaiman aiwatar da lambar ba, ana iya wakiltar hanyar ta hanyar wannan tsarin pseudocode:

# Pseudocode: Bincike na Ingantaccen Rarraba Kalmomi
for harshe in FLORES_200_HARSUNA:
    tarin rubutu = loda_tarin_rubutu(harshe)
    daidaitaccen_rubutu = aiwatar_daidaitawa(tarin_rubutu)
    kalmomi = tiktoken_rarraba_kalmomi(daidaitaccen_rubutu)
    
    tps = lissafa_kalmomi_kowane_jumla(kalmomi)
    rtc = tps / ma'auni_tps_na_turanci
    
    adana_ma'auni(harshe, tps, rtc)

bincika_tsarin_salo_tsakanin_harsuna(bayanan_ma'auni)
gano_son_rayni_na_cibiyar_sadarwa(binciken_kididdiga)

5. Hanyoyin Gaba

Ya kamata bincike na gaba ya ba da fifiko ga haɓaka dabarun rarraba kalmomi masu cike da ilimin harshe da hanyoyin gina ƙamus masu daidaitawa waɗanda suka haɗa da bambancin nau'ikan rubutu. Manyan hanyoyin sun haɗa da:

  • Rarraba Kalmomi Mai Daidaitawa: Haɓaka algorithms na rarraba kalmomi masu sanin rubutu da kuma masu kula da sifofi
  • Gina Ƙamus Mai Sauƙi: Aiwatar da rabe-rabe na kalmomi na musamman ga dangin harshe
  • Ingantaccen Canja wurin Ilimi Tsakanin Harsuna: Haɓaka raba ilimi tsakanin harsuna masu albarkatu da waɗanda ba su da albarkatu
  • Haɓaka Ma'auni: Ƙirƙirar cikakkun tsare-tsare na kimantawa don daidaiton rarraba kalmomi a cikin harsuna daban-daban

Binciken Kwararre: Rikicin Nuna Bambanci a Cibiyar Sadarwa a AI na Harsuna Daban-daban

Maganar Gaskiya: Wannan bincike ya fallasa wani gagarumin aibi a cikin tarin cibiyar sadarwar AI—tsarin rarraba kalmomi da aka inganta don Turanci yana nuna son rai ga kashi 80% na harsunan duniya. Bambancin kudin lissafi sau 3-5 ba matsala ce ta inganci kawai ba; rikicin samun dama ne wanda ke barazana ga barin biliyoyin mutane daga amfanin AI.

Sarkar Dalili: Hanyar sanadi a bayyane take: ƙirar rarraba kalmomi mai mayar da hankali kan Turanci → rashin ingantaccen raba kalmomi ga rubutun da ba na Latin ba → ƙarin farashin lissafi → rage aikin samfuri → ci gaba da rarraba rarraba harshe na dijital. Wannan yana haifar da zagaye mai ƙarfafa kai inda harsuna masu albarkatu suka fi kyau yayin da harsunan da ba su da albarkatu suka ƙara raguwa, wanda ke tunawa da matsalolin rashin kwanciyar hankali na horo da aka lura a cikin takardar asali na CycleGAN inda haɗuwar samfurin ya bambanta sosai a cikin yankuna daban-daban.

Abubuwan Haske da Rauni: Ƙarfin binciken ya ta'allaka ne a cikin tsarinsa na tsari, babban kimantawa a cikin harsuna sama da 200—ƙaƙƙarfan hanyar bincike da ba a cika ganinta ba a cikin binciken NLP na harsuna daban-daban. Duk da haka, takardar ta tsaya ba ta ba da takamaiman mafita na fasaha ba, kawai tana kira ga "dabarun da suka danganci ilimin harshe" ba tare da ƙayyadaddun hanyoyin aiwatarwa ba. Wannan yayi daidai da iyakokin da ake gani a yawancin takardun ɗa'a na AI: ingantaccen ganewar asali, rashin isasshen magani.

Umarnin Aiki: Kamfanonin fasaha da ke gina AI na harsuna daban-daban dole ne su gudanar da binciken tsarin rarraba kalmomi nan da nan ta amfani da tsare-tsare kamar FLORES-200. Ya kamata saka hannun jari a cikin bincike da haɓaka na rarraba kalmomi iri-iri na harshe ya karu da aƙalla kashi 300% don dacewa da girman matsalar. Ya kamata hukumomin tsari su yi la'akari da daidaiton rarraba kalmomi a matsayin ma'auni don takaddun shaida na tsarin AI, kamar yadda Dokar EU AI ke magance rage son rai.

Sakamakon binciken ya yi daidai da manyan tsarin nuna son rai na cibiyar sadarwa da masu bincike a cibiyoyi kamar Stanford HAI da MIT Media Lab suka gano, inda yanke shawara na fasaha da aka yi don sauƙi suka zama shinge na tsari ga daidaito. Kamar yadda aka lura a cikin tarin littattafan ACL, irin wannan matsalolin raba kalmomi suna shafar harsunan da ba su da albarkatu a cikin ayyuka da yawa na NLP, wanda ke nuna cewa wannan tsari ne maimakon matsala ta keɓe.

6. Bayanan Kafa

  1. Devlin, J., da sauransu. (2019). BERT: Horarwa na Farko na Masu Canza Siffofi Masu Zurfi Biyu don Fahimtar Harshe. NAACL-HLT.
  2. Brown, T., da sauransu. (2020). Samfuran Harshe Ƙwararrun Malamai Ne. NeurIPS.
  3. Conneau, A., da sauransu. (2020). Koyon Wakilci Tsakanin Harsuna Ba tare da Kulawa ba a Girma. ACL.
  4. Joshi, P., da sauransu. (2020). Yanayi da Makomar Bambancin Harshe da Haɗa kai a cikin Duniyar NLP. ACL.
  5. Winata, G. I., da sauransu. (2021). Kalubale da Damar Canza Lamba: Ra'ayoyin NLP na Harsuna Daban-daban. EMNLP.
  6. Ruder, S. (2020). Dalilin Da Ya Sa Ya Kamata Ku Yi NLP Bayan Turanci. arXiv:2004.15012.
  7. Kudo, T. (2018). Daidaita Kalmomin Ƙasa: Inganta Samfuran Fassarar Cibiyar Sadarwar Jijiyoyi tare da ɗalibai na Kalmomin Ƙasa da yawa. ACL.
  8. Wu, S., & Dredze, M. (2019). Beto, Bentz, Becas: Mummunan Tasirin Tasirin BERT Tsakanin Harsuna. EMNLP.
  9. Goyal, N., da sauransu. (2022). Ma'auni na Kimantawa na FLORES-200 don Ƙarancin Albarkatu da Fassarar Injin Harsuna Daban-daban. NeurIPS.
  10. Sennrich, R., da sauransu. (2016). Fassarar Injin Jijiyoyi na Kalmomin Da Suka Kusa Bace tare da Rabe-raben Kalmomi. ACL.