Výsledky vyhledávání - "Tapo, Allahsera"

Report

Machine Intelligence in Africa: a survey

Autor: Tapo, Allahsera Auguste, Traore, Ali, Danioko, Sidy, Tembine, Hamidou

In the last 5 years, the availability of large audio datasets in African countries has opened unlimited opportunities to build machine intelligence (MI) technologies that are closer to the people and speak, learn, understand, and do businesses in loc

Externí odkaz: http://arxiv.org/abs/2402.02218

Zobrazit plný text záznamu

Report

MasakhaPOS: Part-of-Speech Tagging for Typologically Diverse African Languages

Autor: Dione, Cheikh M. Bamba, Adelani, David, Nabende, Peter, Alabi, Jesujoba, Sindane, Thapelo, Buzaaba, Happy, Muhammad, Shamsuddeen Hassan, Emezue, Chris Chinenye, Ogayo, Perez, Aremu, Anuoluwapo, Gitau, Catherine, Mbaye, Derguene, Mukiibi, Jonathan, Sibanda, Blessing, Dossou, Bonaventure F. P., Bukula, Andiswa, Mabuya, Rooweither, Tapo, Allahsera Auguste, Munkoh-Buabeng, Edwin, Koagne, victoire Memdjokam, Kabore, Fatoumata Ouoba, Taylor, Amelia, Kalipe, Godson, Macucwa, Tebogo, Marivate, Vukosi, Gwadabe, Tajuddeen, Elvis, Mboning Tchiaze, Onyenwe, Ikechukwu, Atindogbe, Gratien, Adelani, Tolulope, Akinade, Idris, Samuel, Olanrewaju, Nahimana, Marien, Musabeyezu, Théogène, Niyomutabazi, Emile, Chimhenga, Ester, Gotosa, Kudzai, Mizha, Patrick, Agbolo, Apelete, Traore, Seydou, Uchechukwu, Chinedu, Yusuf, Aliyu, Abdullahi, Muhammad, Klakow, Dietrich

In this paper, we present MasakhaPOS, the largest part-of-speech (POS) dataset for 20 typologically diverse African languages. We discuss the challenges in annotating POS for these languages using the UD (universal dependencies) guidelines. We conduc

Externí odkaz: http://arxiv.org/abs/2305.13989

Zobrazit plný text záznamu

Report

MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity Recognition

Autor: Adelani, David Ifeoluwa, Neubig, Graham, Ruder, Sebastian, Rijhwani, Shruti, Beukman, Michael, Palen-Michel, Chester, Lignos, Constantine, Alabi, Jesujoba O., Muhammad, Shamsuddeen H., Nabende, Peter, Dione, Cheikh M. Bamba, Bukula, Andiswa, Mabuya, Rooweither, Dossou, Bonaventure F. P., Sibanda, Blessing, Buzaaba, Happy, Mukiibi, Jonathan, Kalipe, Godson, Mbaye, Derguene, Taylor, Amelia, Kabore, Fatoumata, Emezue, Chris Chinenye, Aremu, Anuoluwapo, Ogayo, Perez, Gitau, Catherine, Munkoh-Buabeng, Edwin, Koagne, Victoire M., Tapo, Allahsera Auguste, Macucwa, Tebogo, Marivate, Vukosi, Mboning, Elvis, Gwadabe, Tajuddeen, Adewumi, Tosin, Ahia, Orevaoghene, Nakatumba-Nabende, Joyce, Mokono, Neo L., Ezeani, Ignatius, Chukwuneke, Chiamaka, Adeyemi, Mofetoluwa, Hacheme, Gilles Q., Abdulmumin, Idris, Ogundepo, Odunayo, Yousuf, Oreen, Ngoli, Tatiana Moteu, Klakow, Dietrich

African languages are spoken by over a billion people, but are underrepresented in NLP research and development. The challenges impeding progress include the limited availability of annotated datasets, as well as a lack of understanding of the settin

Externí odkaz: http://arxiv.org/abs/2210.12391

Zobrazit plný text záznamu

Report

A Few Thousand Translations Go a Long Way! Leveraging Pre-trained Models for African News Translation

Autor: Adelani, David Ifeoluwa, Alabi, Jesujoba Oluwadara, Fan, Angela, Kreutzer, Julia, Shen, Xiaoyu, Reid, Machel, Ruiter, Dana, Klakow, Dietrich, Nabende, Peter, Chang, Ernie, Gwadabe, Tajuddeen, Sackey, Freshia, Dossou, Bonaventure F. P., Emezue, Chris Chinenye, Leong, Colin, Beukman, Michael, Muhammad, Shamsuddeen Hassan, Jarso, Guyo Dub, Yousuf, Oreen, Rubungo, Andre Niyongabo, Hacheme, Gilles, Wairagala, Eric Peter, Nasir, Muhammad Umair, Ajibade, Benjamin Ayoade, Ajayi, Tunde Oluwaseyi, Gitau, Yvonne Wambui, Abbott, Jade, Ahmed, Mohamed, Ochieng, Millicent, Aremu, Anuoluwapo, Ogayo, Perez, Mukiibi, Jonathan, Kabore, Fatoumata Ouoba, Kalipe, Godson Koffi, Mbaye, Derguene, Tapo, Allahsera Auguste, Koagne, Victoire Memdjokam, Munkoh-Buabeng, Edwin, Wagner, Valencia, Abdulmumin, Idris, Awokoya, Ayodele, Buzaaba, Happy, Sibanda, Blessing, Bukula, Andiswa, Manthalu, Sam

Recent advances in the pre-training of language models leverage large-scale datasets to create multilingual models. However, low-resource languages are mostly left out in these datasets. This is primarily because many widely spoken languages are not

Externí odkaz: http://arxiv.org/abs/2205.02022

Zobrazit plný text záznamu

Report

Domain-specific MT for Low-resource Languages: The case of Bambara-French

Autor: Tapo, Allahsera Auguste, Leventhal, Michael, Luger, Sarah, Homan, Christopher M., Zampieri, Marcos

Translating to and from low-resource languages is a challenge for machine translation (MT) systems due to a lack of parallel data. In this paper we address the issue of domain-specific MT for Bambara, an under-resourced Mande language spoken in Mali.

Externí odkaz: http://arxiv.org/abs/2104.00041

Zobrazit plný text záznamu

Report

Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets

Autor: Kreutzer, Julia, Caswell, Isaac, Wang, Lisa, Wahab, Ahsan, van Esch, Daan, Ulzii-Orshikh, Nasanbayar, Tapo, Allahsera, Subramani, Nishant, Sokolov, Artem, Sikasote, Claytone, Setyawan, Monang, Sarin, Supheakmungkol, Samb, Sokhar, Sagot, Benoît, Rivera, Clara, Rios, Annette, Papadimitriou, Isabel, Osei, Salomey, Suarez, Pedro Ortiz, Orife, Iroro, Ogueji, Kelechi, Rubungo, Andre Niyongabo, Nguyen, Toan Q., Müller, Mathias, Müller, André, Muhammad, Shamsuddeen Hassan, Muhammad, Nanda, Mnyakeni, Ayanda, Mirzakhalov, Jamshidbek, Matangira, Tapiwanashe, Leong, Colin, Lawson, Nze, Kudugunta, Sneha, Jernite, Yacine, Jenny, Mathias, Firat, Orhan, Dossou, Bonaventure F. P., Dlamini, Sakhile, de Silva, Nisansa, Ballı, Sakine Çabuk, Biderman, Stella, Battisti, Alessia, Baruwa, Ahmed, Bapna, Ankur, Baljekar, Pallavi, Azime, Israel Abebe, Awokoya, Ayodele, Ataman, Duygu, Ahia, Orevaoghene, Ahia, Oghenefego, Agrawal, Sweta, Adeyemi, Mofetoluwa

Publikováno v: Transactions of the Association for Computational Linguistics (2022) 10: 50-72

With the success of large-scale pre-training and multilingual modeling in Natural Language Processing (NLP), recent years have seen a proliferation of large, web-mined text datasets covering hundreds of languages. We manually audit the quality of 205

Externí odkaz: http://arxiv.org/abs/2103.12028

Zobrazit plný text záznamu

Report

Neural Machine Translation for Extremely Low-Resource African Languages: A Case Study on Bambara

Autor: Tapo, Allahsera Auguste, Coulibaly, Bakary, Diarra, Sébastien, Homan, Christopher, Kreutzer, Julia, Luger, Sarah, Nagashima, Arthur, Zampieri, Marcos, Leventhal, Michael

Low-resource languages present unique challenges to (neural) machine translation. We discuss the case of Bambara, a Mande language for which training data is scarce and requires significant amounts of pre-processing. More than the linguistic situatio

Externí odkaz: http://arxiv.org/abs/2011.05284

Zobrazit plný text záznamu

Report

Assessing Human Translations from French to Bambara for Machine Learning: a Pilot Study

Autor: Leventhal, Michael, Tapo, Allahsera, Luger, Sarah, Zampieri, Marcos, Homan, Christopher M.

We present novel methods for assessing the quality of human-translated aligned texts for learning machine translation models of under-resourced languages. Malian university students translated French texts, producing either written or oral translatio

Externí odkaz: http://arxiv.org/abs/2004.00068

Zobrazit plný text záznamu

Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets

Publikováno v: Transactions of the Association for Computational Linguistics
Transactions of the Association for Computational Linguistics, 2022, 10, pp.50-72. ⟨10.1162/tacl_a_00447⟩

Externí odkaz: https://explore.openaire.eu/search/publication?articleId=doi_dedup___::8405c9eaf28c8674ef1634ed53a14354
https://doi.org/10.1162/tacl_a_00447

Zobrazit plný text záznamu

Vyhledávací nástroje:

Upřesnit hledání