0708 ikasturtea teknologia berrietan

Maig 17, 2008 per ikasle

2007-2008 ikasturtea neure lehen urtea izan da unibertsitatean, eta teknologia berrien inguruko ikasgai hau zeharo berria izan da. Blog- aren kontua dela eta, hasiera batean inoiz egin gabeko zerbait izan denez gero gauza asko ikasi dut blogen inguruan, nola egin behar diren eta nola ez . Esan beharra daukat, euskaraz idaztearena, zaila izan dela batez ere GHT atalean, informazio asko itzuli behar izan dugulako, inglesetik batez ere. Hala eta guztiz ere, wikipedia artikuloaren kontua dela eta, oso lan interesgarria izan da taldeetan egiteko, neure uste apalean, honelako lanak gehiago bultzatu beharko liratezke, batez ere kontuan harturik wikipedia bezalako tresna oso erabilgarria dela, edonork hobetu delakeelako.

Wikipedia tresna internetera hedatu!

Azkenik, aurten, ikasi dudan gauzarik eta garrantzitsuena da, internetek wikipedia bezalako tresna bidez antolatu beharra duela. Ados denok aukera izan behar dugula nahi beste artikulo eta blog idatzi ahal izateko, baina bertan dagoen informazio guztia denon artean eta modu antolatu batean eskuragarri egon behar du denon erosotasunerako.

Itzulpengintza

Maig 10, 2008 per ikasle

1.Informatika eta globalizazioa hizkuntzen beharrizanetan

 Itzulpengintza garai klasikotik gure garairarte heldu den tradizio bat dugu, hizkuntzen aberastasunak denak ezberdin izatera bideratuz. Honela beste gizarteetan darabilten kontuak ikasi nahirik, egun ere, bizi garen mundu globalizatu honetan, ematen den egoera da, baliteke inoiz baino gehiago izatea.

antzinako idatzia

2. Itzulpen automatikoak

Hurbileko hizkuntzak, española eta Galegoa, biek latin arrasto nabarmenak dituzte. Opentrad ekin eginiko itzulpenean:

  1. hoy está lloviendo– hoxe está chovendo (esp-gallego)
  2. hoy está lloviendo, pero ayer no llovió–hoxe está chovendo, pero onte non choveu (esp-gallego)
  3. Aunque hoy llueva, mañara no lloverá–Aínda que hoxe chova, mañara non choverá (esp-gallego)

Esan beharra dago, itzulpena guztiz zuzena dela.

Oinarri bera ez duten hizkuntzen arteko itzulpen automatikoa Systran sistema erabiliz:

  1. Today is rainning– Aujourd’hui pleut ( eng-fr)
  2. It is rainning cats and dogs–Il rainning des chats et des chiens (eng-fr)

Lehenengoa zuzena bada ere, bigarren adibidea It is rainning cats and dogs ez da zuzena, ingelesez esapide bat delako eta itzulpen zuzena egin duelako esanahiari erreparatu gabe. 

 Erreferentzia:

http://www.opentrad.org/ On-line Itzultzaile automatikoa, 2008 martxoak 20, 15:30

http://www.systran.co.uk/ On-line zuzentzaile automatikoa, 2008martxoak 20, 15:40

 

Itzulpengintzari sarrera

Maig 10, 2008 per ikasle

1 Itzulpengintzaren gakoak

 

 

- Ulermena: Itzuli behar denarekiko ulermen absolutoa, argudioak nondik nora doazen, eta maila linguistikotik begira dituen ezaugarri bereziak.

- Barneratu: Gaiak dituen koplexotasun guztien jabe egin beharra, ulermenaren aldetik eta norbere egitea.

- Komunikazioa: Testua ulergarria izan behar denez gero, berreginiko testuak zentzu osoa izan behar du, hasierakotik ezer desagerrarazi gabe ezta asmatu gabe ere.

 

 

2 Itzulpengintza automatikoko programak

 

 

Itzulpengintzarako on-line programa garrantzitsuenak honako bi hauek dira, Opentrad eta Systran, hala ere badira beste zeinbait programa, besteak beste, Transledium eta Reverso.

 

Opentrad: Opentrad estatuko hizkuntzetarako kode irekiko itzulpen automatikoko sistema bat da, eta enpresaz eta unibertsitatez osatutako partzuergo batek garatu du.

Systran: Systran, itzulpen automatikoetako zaharrena da. Sistema hau multiplataforma da, arau bidezko itzulpengintza egitetik, memoria itzulpenetara berritu da.  Egun doan erabili daiteke internet bidezko instalazioetan.

 

Erreferentziak:

http://www.isi.edu/natural-language/mteval/, otsailaren 22an, 15:30tan

 

GHT definizioak

Maig 9, 2008 per ikasle

Ø      Giza Hizkuntza Teknologien definizioak

Hizkuntza Teknologiak esanahi ezberdinak eman zaizkio. Besteak beste, Hizkuntza Teknologiari emandako hainbat adibide:

1.-Hizkuntza Teknologia (Language Technology), edo Giza Hizkuntza Teknologia (Human Language Technology), giza hizkuntzan lanean espezializaturik dagoen informazio teknologiari deitzen zaio.  http://www.lt-world.org/

2.- GHT giza hizkuntza ulertarazteko edo laburtzeko kapaz diren ordenadore sistemak aztertzen ditu. Atal honetan hizketaldiaren prozesamendua (ezagutu, ulertzea eta sintesia), informazio aurkitzea, eskuz idatzitakoaren ezaguera, ordenadore bidezko itzulpena, testuen laburpena eta hizkuntza sortzea batzen dira. http://www.mitre.org/news/events/tech03/human_language.html

Erreferentziak:

- Otsailak 10, 15:30 http://www.lt-world.org/

-MITRE 10th Annual Technology Symposium, Lisa Harper, Christy Doran, Florence Reeder, Lynette Hirschman, Inderjeet Mani, Laurie Damianos, otsailak 10, 13:50 http://www.mitre.org/news/events/tech03/human_language.html

-Soziolinguistika kluiskerra, otsailak 10, 13:00 http://www.soziolinguistika.org/eu/node/1301

 

 

 

GHT zentruak Europan

Maig 9, 2008 per ikasle

Ø GHT ikerketa zentruak Europan

GHT ren inguruan ikerketa asko egin dira. Instituzio eta talde ugarik parte hartu dute, hona hemen Europako zenbait talde GHT ren inguran dabilena lanean: 

  • Language Techology Lab DFKI (Germany)
  • Edinburgh Language Technology Group ( Scotland, UK) 
  • IXA Group Natural Language Processing University of the Basque Country Computer Science Faculty (EH)
  • National Centre for Language Technology (Irlanda)

Goian agertzen diren taldeok, ditugu GHT lantzen dutenak, hala eta guztiz ere, badira beste hainbat eta hainbat talde, goikoa aukeraketa txiki bat besterik ez da izan. Erreferentzietan talde eta instituzio gehiago ageri dira.

Erreferentziak:

GHT sailkapen filologikoan

Maig 9, 2008 per ikasle

Ø      Ikerkuntza berriak GHT n

 

HLT (Human Language Technologies), GHT (Giza Hizkuntzen Teknologia) gauza ugari dago ikertzeko, hala ere azken urteotan ikerketak emankortu dira. Landutako zenbait lan honakoak ditugu.

  • Makina itzulpenak
  • Fonologia eta morfologiaren indukzioa
  • Euskararen Atlas Sintaktikoaren sorkuntza
  • REMIXEE: Euskaraz emozioen ezagupen nahasia.
  • Ahotsaren ezagupena eta sintesia
  • Anbiguedate lexikoan
  • Lexikografia konputazionala

ANBIGUIDATE LEXIKOA: anbiguidate lexikoari irtenbidea bilatzea berebizikoa da hizkuntzalarientzat.Anbiguedate hau konpontzea erraza ez izan harren, testuinguruari so egitea besterik ez da egin behar.Testuinguru bakoitzean, hitz bakoitzak esanahi bakarra duelako eta erabiltzeko era berezia dutelako hitzok, beraz hau konponduz gero, ez legoke inolako arazo lexikorik anbiguedatearekiko.  

MAKINA  ITZULPENAK: Biziki zaila da, makina bidezko itzulpena, sarri askotan, egindako itzulpenak oso kaskarrak izaten dira, arau gramatikal zein sintaxi arauak ondo erabiltzea ez delako bat ere erraza. Beraz, honen inguruan dabiltzak ikertzaileek, hizkuntzaren arauak hartu eta hauek programatzen dituzte, denok dakigun bezala baina, ez da bat ere erraza hizkuntza baten menperatzea, zirrikitu ugari baitituzte hizkuntzetan gramatikak eta sintaxiak.

 

Erreferentzia:

Hans Uszkoreit

Maig 9, 2008 per ikasle

Ø      (lanpostua)  

Hans Uszkoreit Linguistika Konputazional irakaslea da Saarlandgo Unibertsitatean. DFKIan (Inteligentzia   Artifizialaren Ikerkuntzarako Zentru Alemana) lan egiteaz gain Zuzendari Zientifiko bezala eta Hizkuntza Teknologien Laborategia zuzentzen lan egin du. Ordenagailu Zientzien arloko irakaslea ere bada.                                            Hans Uszkoreit 
 
 Ø      (Bizitza)
Linguistika eta Informatika ikasketak burutu zituen Berlineko Unibertsitate Teknikoan eta Texaseko Unibertsitatean. Texasen, makinen bitartez eginiko itzulpengintzan aritu zen. 1984an Doktoratu zen. 1982tik 1986ra Inteligentzia Artifizialan lanean aritu zen Kalifornian. IBM enpresan lan egin zuen baita unibertsitateko eskolan ere eman zituen.
1989tik aintzinera Saarlandeko Unibertsitatean aritu zen lanean Linguistika Konputazionalaren eta Fonetikan. Sortu berri zen DFKIko buru izendatu zuten eta zenbait proiektu eta erakunde sortu ditu. Linguistika Konputazionalaren Komite Internazionalean (ICCL) parte hartzen du baita beste hainbat nazioarteko erakundeetan ere. Egun enpresa batzuetan ere parte hartzen jarraitzen du.
      

Ø      ( Proiektu nagusiak)

Gaur egun GHT ulertze eta sortzean dabil lanean, hizkuntza teknologia aurreratu, sorkuntza kognitibo, formalismo gramatiko eta bere inplementazioetan. Gramatika eta semantika alemanaean berebiziko garrantzia du egiten ari den lanak.

 

Ø      (Publifikazioak)

1986tik aurrera  idatzi dituen liburuak, hauek dira batzuk:

  • Hans Uszkoreit: Syntaktische und semantische Generalisierungen im strukturierten Lexikon. GWAI 1986: 87-100
  • Gosse Bouma, Esther König, Hans Uszkoreit: A Flexible Graph-Unification Formalism and Its Application to Natural-Language Processing. IBM Journal of Research and Development 32(2): 170-184 ( 1988 )
  • Hans Uszkoreit: Computerlinguistik, Linguistik und künstliche Intelligenz. Computerlinguistik und ihre theoretischen Grundlagen 1988: 210-214
  • Rolf Backofen, Harald Trost, Hans Uszkoreit: Linking Typed Feature Formalisms and Terminological Knowledge Representation Languages in Natural Language Front-Ends. Wissensbasierte Systeme 1991: 375-383
  • Joanne Capstick, Abdel Kader Diagne, Gregor Erbach, Hans Uszkoreit, Anne Leisenberg, Manfred Leisenberg: A system for supporting cross-lingual information retrieval. Inf. Process. Manage. 36(2): 275-289 (2000)
  • Tianfang Yao, Hans Uszkoreit: Chinese Named Entity and Relation Identification System. ACL 2006

Azken finean Hans Uszkoreitek, linugstikaz gain, informatikan oso gizon garrantzitsua izan da egindako ikerketa eta lan guztiengatik.

Erreferentzia:

  • Hans Uszkoreit, Presonal Homepage, otsailak 28, 11:30 http://hans.uszkoreit.net/
  • Hans Uszkoreit. Short Curriculum Vitae. 11:30, Apirilak 6, 2008,   http://www.coli.uni-saarland.de/~hansu/
  • Hizkuntzak eta teknologiaren bateratzea

    Març 3, 2008 per ikasle

    Lengoaia naturalaren prozesamendua izan da informatikaren jaiotzaz geroztik arreta berezia jaso duten gaietako bat. Gela oso bat behar zuten lehenengo ordenagailu haiek sortu ziren garai hartan bertan, ordenagailuek lengoaia naturalaren prozesamenduan izango zuten eragina izaten zen hizpide, eta gai anitz landu dira 60ko hamarkadaz geroztik arlo hauetan: zuzentzaile morfologikoak, zuzentzaile gramatikalak, testu-tratamendu automatizatua eta, nola ez, itzulpen automatikoa edo ahotsaren sintesia bezalako gai ’izarrak’.Horregatik, Teknologia Berriak modako termino bihurtu zaigun garai honetan, ez da harritzekoa behin eta berriz horiek hizkuntzaren tratamenduan izan dezaketen eragina neurtzen saiatzea. Eta, alderantziz, baita hizkuntzek teknologia berrietan duten eragina jakin nahi izatea ere. Eta hizkuntza gutxituen kasuan?

    Azken galdera hori bi eratara egin dezakegu: zein da hizkuntza gutxituek teknologia berrietan duten betebeharra? Edo, bestela, zein eragin dute teknologia berriek hizkuntza gutxituetan?

    Bi galderak guztiz desberdinak izan arren, biek dute garrantzia. Artikulu honetan bietaz arituko naiz, sakontzeko aukera gutxi izan arren, adibide bana jarriz.

    Argazkia
    Eleka ingeniaritza linguistikoaren webgunea.

    Hizkuntza gutxituak teknologia berrietan

    Gero eta argiago dago teknologiarekin dugun harremana aldatzear dagoela. Domotikaren presentzia gero eta nabarmenagoa da gure bizitzan, eta horrek pertsonek makinekin dugun harremana naturalagoa izatea egiten du. Halaber, ez dugu informatika jakin beharrik ordenagailua erabiltzeko, eta are gutxiago garbigailua martxan jartzeko. Baina kasu guztietan teknologiak hartzen du parte.

    Aurrerantzean, teknologiaren erabilera hori naturalago bihurtuko da, eta pixkanaka lengoaia naturala izango da makinekin lan egiteko erabiliko dugun tresna. Harreman horrek, ordea, hartuko al ditu hizkuntza gutxituak bere baitan? Edo ingelesez aritu beharko dugu gure inguruko tresnekin? Izango al da euskara erabiltzeko aukerarik?

    Hori gure esku dago. Hau da, enpresa handiek ez dute hizkuntza gutxituen aldeko apusturik egiten; beraz, teknologia berriak erabiltzean, gure hizkuntzaz aritzeko aukera geuk landu beharko dugu. Hori da Elekan egiten saiatzen garena. Adibide garbia Xuxen da. Guztiok ezagutzen dugun zuzentzaile ortografikoa gaur egun arrunta bada ere, garai batean izugarrizko jauzia suposatu zuen euskarak teknologia berriekin zuen harremana finkatzean. Ondoren, beste tresna batzuk etorri dira. Esaterako, 2003an kaleratu zuen Elekak euskarara egokitutako OCRa, aspalditik hainbat hizkuntzarako zegoen tresna. Badira beste zenbait tresna hizkuntza nagusietan arrunt bilakatu direnak eta hizkuntza gutxituentzat ez daudenak, zuzentzaile gramatikala esaterako. Noiztik dugu Word-en gaztelania, frantsesa edo ingelesa bezalako hizkuntzen estilo-zuzentzailea? Badira urte batzuk. Eta euskarazkoa? Oraingoz ez. Eta Euskal Herrian garatzen ez badugu, ez dugu halakorik izango.

    Argazkia
    IXA Taldearen webgunea.

    Horretan ari da, beraz, Eleka. Euskararako zuzentzaile gramatikala da esku artean ditugun proiektuetako bat, eta IXA Taldearekin garatzen ari garen tresna horren emaitza laster batean izatea espero dugu. Ea pixkanaka euskara jartzen dugun teknologikoki beste hizkuntzen pare.

    Teknologia berriak hizkuntza gutxituen alde: Berbagune

    Lehen egindako bi galderetan, bigarrenak badu zentzu berezi bat: lagundu al dezakete teknologia berriek hizkuntza gutxituen garapenean? Nik ez dut zalantzarik: bai.

    Horren adibide moduan beste proiektu bat jarriko dut: Berbagune, hizkuntza gutxituen behatokia. Berbagune, epe laburrean Interneten (www.berbagune.org) eskura izango duzuen ikerketa-proiektu baten emaitza da. Elhuyar Fundazioak eta GAIAk zuzendu eta Elekak eta Elhuyar Aholkularitzak garatutako proiektu horren helburua da Interneten hizkuntza gutxituek duten presentzia aztertzea eta emaitza era grafikoan azaltzea.

    Argazkia
    Berbagune epe laburrean Interneten eskura izango da.

    BERBAGUNE Europako hizkuntza gutxituek Interneten duten presentzia arakatzeko behatokia da. Bertan, lehen urrats horretan definitu diren sei hizkuntzen inguruko datuak ezagutu ahal izango dira:

    • Euskara, katalana, bablea eta galegoa
    • Geografikoki egokitzen zaizkien hizkuntza nagusiak: gaztelania eta frantsesa

    Hizkuntza gutxituek Interneten duten hedapen?mailari buruzko daturik ez da orain arte eskuratu, eta hori egitea ezinbestekoa da teknologia berrien aroan zein egoeratan gauden eta zer helburu garatu behar ditugun jakiteko. Hizkuntzen arteko datu?gurutzaketa ere interesgarria da, inguruko hizkuntza gutxituekiko hedapen?maila nolakoa den jakiteko (bai kopuruetan, bai zerbitzuetan, baita garatutako gaietan ere), bai eta geografikoki egokitzen zaien hizkuntza nagusiarekiko hedapen?maila nolakoa den jakiteko ere.

    Berbagune behatokiaren bitartez, hizkuntza bakoitzak Interneten zer hedapen duen jakin ahal izango da: zenbat web orri dauden, zein gai lantzen diren, zein motatako web orria den (jakintzari ote dagokion, zerbitzuari egokitutakoak ote diren, etab.).

    Datu horiek uneko egoera aztertuta arakatu ahal izango dira, baina joeren datuak ere lortu ahal izango dira.

    Hizkuntza bakarrari buruzko datuez gain, beste hizkuntzekiko alderaketei buruzkoak ere lortu ahal izango dira.

    Behatokiaren azken helburua izango da datuen gainean estrategia telematikoak definitzea eta garatzea: garapen?mailaren arabera, helburu jakinak definitu ahal izango dira hizkuntza horien presentzia garatzeko, indartzeko eta zabaltzeko Interneten.

    Lehen urrats horretan, euskararekin batera dauden hizkuntza nagusiak eta horiekin batera dauden hizkuntza gutxitu batzuk hautatu dira. Garapen?maila nolakoa den jakiterakoan (eta, beraz, zenbaterainoko garapen?maila behar duen definitzerakoan), inguruko hizkuntzen egoera ezagutu nahi izan da.

    Edonola ere, behatokiak beste hizkuntza gutxitu batzuei buruzko datuak ezagutzeko erreminta izan nahi du, datozen hilabete eta urteetan, teknologia berrien esparruan hizkuntzak lortzen ari diren garapen?maila ezagutu ahal izateko eta politika teknologiko zehatzak definitzeko.

    Azken ondorioak

    Bi galdera egin ditut artikulu honen hasieran, eta biak guztiz desberdinak zirela esan arren, garbi dago bien erantzuna bat datorrela: Teknologia berriek hizkuntza gutxituak behar dituzte beren eremua zabaltzeko, aurrera egiteko eta gure eguneroko bizitzan guztiz barneratzeko. Baina teknologia berriak ez dira hizkuntza gutxituen etsai, horien beharretarako erabili behar ditugulako. Horregatik, hizkuntza gutxituek teknologia berriak behar dituzte aurrera egin nahi badute. Ez daukate, beraz, bata besterik gabe aurrera egiterik. Etorkizuna teknologiek adieraziko dute, baina gure hizkuntzan.

    Dokumentazioa

    http://www.euskonews.com/0243zbk/gaia24304eu.html (martxoak 3, 13:13h)

    Bittor Aiape!

    Febrer 27, 2008 per ikasle

    Begiratzen dut zure aurpegia
    ikusten dudan bakarra desolazio hutsa
    non geratu da zure itxaropena
    irabazteko nahia bizitza honetan!
    Zer gertatu da itsurarekin,iribarrea galdu egin da
    zure begirada zorrotza, zin egin dezaket
    (“burua”) mundua eragozpen hura.
    adi egon,adi egon,
    adi egon,adi egon,
    adi egon!!
    Lehen aurrera bultzatu zenu bahina(n)
    gaur egun ordea atzera begira
    urteak ez dute bakartzen
    gaztetazuna alde egin zuen.
    Begiratzen dut zure aurpegia
    ikusten dudan bakarra desolazio hutsa
    non geratu da zure itxaropena
    irabazteko nahia bizitza honetan!
    adi egon,adi egon,
    adi egon,adi egon,
    adi egon!!
    Ez zaitez honela geratu
    ez ezazu (etzazu) besoak gurutzatu
    egoera hau alda ezazu
    “ez baduzu” horrela jarraitu
    Ez zaitez honela geratu
    ez ezazu (etzazu) besoak gurutzatu
    egoera hau aldatzera doa
    zure bizitza da betiko geroa!
    adi egon,adi egon!

    Hitz jakintsuak haiek! Bittor, denon inkontzientean egongo zara betiko, gure haurtzaroa izan baitzara.

    HIZKUNTZA MARKATUA

    Desembre 27, 2007 per ikasle

    HIZKUNTZA MARKATUA
    Dokumentu bat kodifikatzeko forma da, testuarekin batera etiketak edota markak jartzen zaizkio. Egun, zabalduen dagoen hizkuntza markatua HTML da, World Wide Web ren oinarria baita. Historikoki
    hizkuntza markatua erabilia izan da eta egun ere editorial eta komunikazio arloan baita idazle, editore eta inprimitzaileen artean.
    HISTORIA
    Izen hau artu du, tradizionalki manuskritoen marginak adierazteko honela egiten zelako. Inprentaren garaian,markatzaileek adierazten zuten, zein letra tipo, estiloa eta tamainua. Honela ere, salto egin zuen informatikaren
    mundura.

    XML, SGML ZER DA?
    Definizioz esan beharra dago, metalenguaiak direla, ezaugarri nabarmenena, edukia eta aurkezpena banatzen ditu.
    XML, (Extending Mark Language) 1996an sortu da eta SGML an oinarriturik dago.

    Informazioaren iturriak:

    http://www.tejedoresdelweb.com/307/article-1868.html</a>
    http://es.wikipedia.org/wiki/Lenguaje_de_marcado</a>
    http://littera.deusto.es/prof/abaitua/ist/ist0405/log/1103106587/index_html</a>

    datatzea 07/12/25koa da.