La Linguistica de Corpus es una metodologia empirica ya que, a partir de grandes colecciones de textos -corpus o corpora- intenta describir las regularidades de las lenguas por medio de la implementacion de programas computacionales, y asi, simular los usos reales de ellas. Este trabajo aplica la Linguistica de Corpus a un conjunto de historias medicas electronicas escritas en espanol nunca analizado linguisticamente. De estas historias se desconoce la forma en que estan escritas por parte de los medicos y las clases de palabras que utilizan cuando describen un suceso en una subdisciplina medica. El conjunto de datos esta formado por 19 subdisciplinas medicas, las cuales contienen sus propias historias. Cada historia fue anotada en tres formas diferentes, lematizacion, tokenizacion y categoria gramatical (part-of-speech) por medio de TreeTagger. Posteriormente, las frecuencias de las anotaciones se describieron mediante AntConc. Los resultados encontrados para cada subdisciplina muestran las palabras con mayor frecuencia. Las palabras de clase cerrada son las mas comunes y utilizadas. Algunas partes de las historias medicas fueron anotadas erroneamente. Por otra parte, se muestran ejemplos que dan a conocer la variabilidad de uso entre expresiones y abreviaturas por parte del personal medico. Ademas, la escritura medica de la Universidad Nacional de Colombia corrobora la Ley de Zipf.
Tópico:
Spanish Linguistics and Language Studies
Citaciones:
0
Citaciones por año:
No hay datos de citaciones disponibles
Altmétricas:
No hay DOI disponible para mostrar altmétricas
Información de la Fuente:
FuenteDOAJ (DOAJ: Directory of Open Access Journals)