{"id":18660,"date":"2023-06-29T09:58:23","date_gmt":"2023-06-29T07:58:23","guid":{"rendered":"https:\/\/www.smith.care\/?p=18660"},"modified":"2025-09-30T16:37:08","modified_gmt":"2025-09-30T14:37:08","slug":"5-fragen-an-start-gemtex","status":"publish","type":"post","link":"https:\/\/www.smith.care\/de\/2023\/06\/29\/5-fragen-an-start-gemtex\/","title":{"rendered":"\u201eWir m\u00fcssen eine gemeinsame Sprache finden\u201c: GeMTeX_MII macht\u2018s m\u00f6glich"},"content":{"rendered":"\n<p><strong>5 Fragen an\u2026 Christina Lohr und Luise Modersohn zum Projektstart\u00a0<\/strong><\/p>\n\n\n\n<p><em>Medizinische Texte aus der Routineversorgung enthalten eine Vielzahl komplexer Daten wie Krankheitsverl\u00e4ufe, Diagnosen und Therapien, die sehr n\u00fctzlich f\u00fcr die Forschung und Patientenversorgung sein k\u00f6nnen. Allerdings unterscheiden sich Texte aus der klinischen Dokumentation zwischen Einrichtungen in Struktur und Inhalt h\u00e4ufig sehr stark. Deshalb k\u00f6nnen sie nur schwer f\u00fcr die automatische Verarbeitung nat\u00fcrlicher Sprache genutzt werden, die wiederum die Grundlage f\u00fcr s\u00e4mtliche Automatisierungsprozesse und Analysen bildet. Das am 1. Juni gestartete Projekt \u201eGerman Medical Text Corpus\u201c (GeMTeX) m\u00f6chte hier Abhilfe schaffen. Die Methodenplattform der Medizininformatik-Initiative (MII) bereitet eine gro\u00dfe Anzahl medizinischer Texte aus verschiedenen Fachgebieten so auf, dass sie f\u00fcr den Aufbau automatisierter Sprachmodelle verwendet werden k\u00f6nnen. Dazu werden die Texte mit Hilfe von definierten Vorgaben inhaltlich markiert und maschinenlesbar kodiert. Personenbezogene Informationen werden dabei in einem mehrstufigen Prozess unkenntlich gemacht. Auf diese Weise soll der gr\u00f6\u00dfte standardisierte Datensatz pseudonymisierter medizinischer Texte in deutscher Sprache entstehen, der standort\u00fcbergreifend f\u00fcr die Forschung und Patientenversorgung genutzt werden kann.<\/em><\/p>\n\n\n\n<p><em>Christina Lohr und Luise Modersohn sind wissenschaftliche Mitarbeiterinnen im GeMTeX-Projekt und promovieren derzeit im Bereich der Computerlinguistik. Im Interview sprechen sie dar\u00fcber, welchen Herausforderungen sie bei der Erstellung des GeMTeX-Textkorpus begegnet sind und wie Forschung und Klinik die standardisierte Textsammlung k\u00fcnftig nutzen k\u00f6nnen. <\/em><\/p>\n\n\n\n<p><strong>Sie beide besch\u00e4ftigen sich bereits seit langer Zeit mit Computerlinguistik und automatischer Sprachverarbeitung. Was fasziniert Sie an diesem Thema?<\/strong><\/p>\n\n\n\n<p><strong>Christina Lohr:<\/strong> Zum einen fasziniert mich, dass Sprache sehr vielf\u00e4ltig sein kann und es unheimlich viele M\u00f6glichkeiten gibt, Sachverhalte darzustellen. Zum Beispiel wie im medizinischen Kontext Diagnosen beschrieben werden k\u00f6nnen.<\/p>\n\n\n\n<p>Dadurch, dass sich Sprache permanent \u00e4ndert und regelm\u00e4\u00dfig neue Krankheitsbilder entstehen, m\u00fcssen wir regelm\u00e4\u00dfig lernen, wie man damit umgeht und vorhandene Systeme aktualisiert. Solche komplexen Herausforderungen mit klinischen Inhalten haben mich schon mein ganzes Leben fasziniert, deshalb bei\u00dfe ich mir gerne die Z\u00e4hne daran aus.<\/p>\n\n\n\n<p><strong>Luise Modersohn:<\/strong> Das war bei mir \u00e4hnlich. Ich bin ein ziemlicher R\u00e4tsel-Freak. Bei R\u00e4tseln suchen wir immer die optimale L\u00f6sung f\u00fcr ein Problem. Sprache wird tagt\u00e4glich genutzt. Eigentlich m\u00fcssten demnach alle Ahnung davon haben! Dann f\u00e4llt aber auf, dass manche Dinge mit der Sprache die wir alle nutzen nicht allgemein darstellbar sind. Wir stellen fest: Es funktioniert f\u00fcr bestimmte F\u00e4lle, aber dann gibt es diese und jene Ausnahmen. An Sprache fasziniert mich, dass sie lebt, sich st\u00e4ndig ver\u00e4ndert und gleichzeitig voller Mehrdeutigkeiten ist. Ich bin ein gro\u00dfer Fan von Wortspielen. Dass ein Begriff mehrere Bedeutungen haben kann und Wortspiele m\u00f6glich sind, finde ich unglaublich cool. Wenn man aus dem Feld der Informatik kommt, fragt man sich: Wie l\u00e4sst sich so etwas verallgemeinern? Das geht nicht wirklich aber irgendwie schon. Deswegen fasziniert mich Sprachverarbeitung.<\/p>\n\n\n\n<p><strong>Inwiefern kann ein annotiertes Korpus medizinischer Texte die klinische Forschung und Patientenversorgung unterst\u00fctzen?<\/strong><\/p>\n\n\n\n<p><strong>Luise Modersohn: <\/strong>Da gibt es etwas, das man da immer antworten kann, n\u00e4mlich: Es ist wichtig, dass Dinge vergleichbar sind und dass wir sie standardisieren. Das liegt zum einen nat\u00fcrlich daran, dass wir aktuell immer mehr automatisieren. Zum Beispiel Google, Facebook und andere Firmen entwickeln immer mehr Sprachverarbeitungs- und KI-Tools. Sie alle entwickeln aber Programme f\u00fcr den allgemeinen Gebrauch. Kliniksprache unterscheidet sich jedoch in vielen Dingen von der allgemeinen Sprache, wie ein Dialekt. Mit GeMTeX oder einem annotierten Korpus k\u00f6nnen wir bestimmte Performancewerte unabh\u00e4ngig pr\u00fcfen und m\u00fcssen nicht auf die Angaben der Hersteller vertrauen. Das hat dementsprechend einen Einfluss auf die Patientenversorgung, weil ich denke, dass die Automatisierung auch dort zunehmen wird. Wir m\u00fcssen deshalb darauf achten, dass durch die Standardisierung f\u00fcr die Sicherheit der Daten und damit des Patientenwohls gesorgt wird. Aber die L\u00fccke zwischen GeMTeX und der direkten Patientenversorgung ist doch relativ gro\u00df. Den Nutzen hat eher die Forschung.<\/p>\n\n\n\n<p><strong>Christina Lohr: <\/strong>Wir haben eine Menge Anbieter zur automatisierten Diagnosecodierung auf dem Markt, die teilweise nicht \u00f6ffentlich evaluiert sind. Diese Anbieter sind aber ausschlaggebend daf\u00fcr, was abgerechnet wird und setzen Tools mit Sprachdatenverarbeitung ein, die in einer Black Box im Hintergrund l\u00e4uft. F\u00fcr die Wissenschaftlerinnen und Wissenschaftler oder das Krankenhauspersonal ist aber nicht nachvollziehbar, wie die Black Box funktioniert oder wie gut die Leistungen auf gewissen Datens\u00e4tzen wirklich sind. Mit GeMTeX haben wir die M\u00f6glichkeit, einen Goldstandard zu schaffen um Leistungen der automatischen Sprachverarbeitung vergleichbar zu machen. Was den Nutzen f\u00fcr die Forschung angeht:Auf dem annotierten GeMTeX-Korpus werden Folgeprojekte aufbauen, die beispielsweise erforschen, inwiefern sprachmodulgest\u00fctzte Dokumentationssoftware \u00c4rztinnen und \u00c4rzte oder Pflegepersonal wirklich entlasten kann. W\u00e4hrend der Behandlung k\u00f6nnte \u00fcber eine Sprachsteuerung direkt dokumentiert werden, w\u00e4hrend im Hintergrund GeMTeX-Sprachmodelle laufen. Das w\u00e4re ein Idealzustand.<\/p>\n\n\n\n<p><strong>Luise Modersohn:<\/strong> ChatGPT ist inzwischen in aller Munde. Solch ein Modell oder ein \u00e4hnliches K\u00d6NNTE sp\u00e4ter auf den GeMTeX-Daten lokal genutzt werden, um zum Beispiel bei der Generierung von Arztbriefen zu unterst\u00fctzen. Oder es K\u00d6NNTE ein medizinischer Chatbot \u00e4hnlich wie ChatGPT entwickelt werden f\u00fcr Patientinnen und Patienten im Krankenhaus, die Fragen oder Probleme haben. K\u00d6NNTE, weil leider die Entwicklung ebendieser Sprachmodelle sehr viele Daten braucht. Wir werden deshalb niemals an so etwas wie Google herankommen. Aber das ist gar nicht unser Ziel. Hier geht es um medizinisches Wissen, also eine relativ abgeschlossene Dom\u00e4ne. Wenn wir die Sicherheitsbedenken adressiert und gel\u00f6st haben, w\u00e4re eine sprachgesteuerte KI-Assistenz eine potenzielle Anwendung, f\u00fcr die wir dann das GeMTeX-Korpus benutzen k\u00f6nnen.<\/p>\n\n\n\n<p><strong>Christina Lohr:<\/strong> Man darf nicht vergessen, dass f\u00fcr den Betrieb von solchen Systemen eine ganze Menge von Daten verf\u00fcgbar sein m\u00fcssen. F\u00fcr den klinischen Kontext sind sie es zwar, aber sie d\u00fcrfen nicht genutzt werden oder sie sind nicht in einem Zustand, in dem man sie verwenden kann.<\/p>\n\n\n\n<p><strong>Damit kommen wir zum Thema Annotation von klinischen Texten. Vereinzelte Textstellen werden dabei nach bestimmten Vorgaben inhaltlich markiert. Diese Markierungen helfen dabei, die Texte f\u00fcr den Aufbau von Sprachmodellen f\u00fcr Anwendungen K\u00fcnstlicher Intelligenz zu nutzen.<\/strong> <strong>Welche Herausforderungen gibt es bei der Annotation von medizinischen Texten?<\/strong><\/p>\n\n\n\n<p><strong>Christina Lohr: <\/strong>Die gr\u00f6\u00dfte Herausforderung besteht darin, diesen Prozess zu organisieren. Wir haben an der Friedrich-Schiller-Universit\u00e4t Jena am Lehrstuhl f\u00fcr Computerlinguistik in Kooperation mit dem Uniklinikum Jena einen Textdatensatz annotiert. Eine Gruppe von Medizinstudierenden hat nach bestimmten Vorgaben Texte f\u00fcr uns gelesen und Passagen markiert. Dadurch, dass wir vor f\u00fcnf, sechs Jahren fast bei null angefangen haben und es f\u00fcr die deutsche Sprache nur wenig Vorarbeiten gibt, mussten wir die Annotationsvorgaben teilweise selbst neu aufsetzen und entwickeln. Am Ende hatten wir Annotationsleitf\u00e4den mit Beispielen und Gegenbeispielen oder haben Kategoriensysteme aus dem Annotationszyklus herausgenommen, weil wir gemerkt hatten, dass die kognitive Anstrengung bei der Bearbeitung von Texten zunimmt, je mehr Anforderungen es gibt. Das kann ein halbes bis ein Jahr dauern, bis wir \u00fcberhaupt wissen, wie die Anforderungen detailliert aussehen.<\/p>\n\n\n\n<p><strong>Luise Modersohn: <\/strong>Am Ende l\u00e4uft es auf Kommunikation hinaus. Wir als Informatikerinnen und Informatiker haben uns \u00fcberlegt, welche Begriffe uns interessieren und wie wir sie definieren. F\u00fcr diejenigen, die aus der Informatik kamen, war es auch vollkommen logisch, wie wir formuliert haben. Dann haben wir unsere Definitionen Medizinstudierenden gegeben. Die guckten uns an und sagten: \u201eNee, so nicht!\u201c Wir mussten erst eine gemeinsame Sprache finden. Das war reine Kommunikationsarbeit. Wir mussten uns fragen: Wovon sprechen wir? Was versteht ihr darunter? Was verstehen wir darunter? Was m\u00f6chten wir ausdr\u00fccken? Durch den Dialog zwischen uns Informatikerinnen und Informatikern und den Medizinstudierenden konnten wir uns dann auf eine gemeinsame Sprache verst\u00e4ndigen. Das hat weniger mit Medizin oder Informatik zu tun als mit Kommunikation. Es ist Sprache, und zwar im philosophischen Sinne.<\/p>\n\n\n\n<p><strong>Christina Lohr: <\/strong>Um ein Beispiel f\u00fcr Fallstricke, die uns begegnet sind, zu nennen:Wir wussten lange nicht, wie wir mit doppelter Verneinung umgehen sollen oder mit Verneinungen aus linguistischer beziehungsweise pathologischer Sicht.<\/p>\n\n\n\n<p><strong>Luise Modersohn:<\/strong> Ein Positiv-Befund muss nicht positiv sein. Also: Jemanden zu gratulieren, weil er positiv auf HIV getestet wurde, ist ziemlich gemein. Es ist etwas Negatives, was aber positiv formuliert ist. Auch Abk\u00fcrzungen sind ganz gro\u00dfartig.<\/p>\n\n\n\n<p><strong>Christina Lohr: <\/strong>Oder wenn ein Laborbefund mit \u201eohne Befund\u201c befunden wird.<\/p>\n\n\n\n<p><strong>Luise Modersohn:<\/strong> Oder f\u00fcnf Zeilen Text und das Endergebnis hei\u00dft: \u201eWir haben nichts gefunden.\u201c<\/p>\n\n\n\n<p><strong>Christina Lohr:<\/strong> Wir haben viel dar\u00fcber diskutiert, wie man mit solchen Situationen umgeht.<\/p>\n\n\n\n<p><strong>Wahnsinn, auf was f\u00fcr Feinheiten man in so einem Projekt st\u00f6\u00dft! Noch einmal zur\u00fcck zu GeMTeX: Welche Engp\u00e4sse bisheriger Sprachmodelle kann die Methodenplattform GeMTeX l\u00f6sen?<\/strong><\/p>\n\n\n\n<p><strong>Christina Lohr: <\/strong>GeMTeXstellt Forschungsdaten f\u00fcr die Verarbeitung deutscher medizinischer Sprache zur Verf\u00fcgung. Es gibt zwar verf\u00fcgbare Datens\u00e4tze, die sind aber oft nur f\u00fcr wissenschaftliche Zwecke und unter Auflagen nutzbar. Teilweise k\u00f6nnen wissenschaftliche Textdatens\u00e4tze in der Medizin lediglich an den Standorten selbst im Kontext eines ganz bestimmten Projekts verwendet werden. Diese L\u00fccke, die dadurch entsteht, kann GeMTeX schlie\u00dfen. Ganz wichtig: GeMTeX baut auf der breiten Patienteneinwilligung der Medizininformatik-Initiative auf. Das hei\u00dft, wir d\u00fcrfen die pseudonymisierten Texte, wenn wir die Einwilligung eingeholt haben, genau f\u00fcr solche Zwecke nutzen.<\/p>\n\n\n\n<p><strong>Luise Modersohn:<\/strong> Es l\u00e4uft letztendlich wieder auf die Standardisierung hinaus. Inzwischen ist interdisziplin\u00e4re Forschung derzeit zurecht sehr beliebt. Fr\u00fcher gab&#8217;s nur ein paar einzelne interessierte Computerlinguistinnen und -linguisten, die sich der Automatisierung angenommen haben. So hatte jede und jeder in seinem Krankenhaus eine kleine Sammlung von Texten, die nicht herausgegeben werden durfte \u2013 sie wurden f\u00fcr eigene kleine Auswertungen verwendet. Das ist alles sch\u00f6n und gut. Ein Problem ist aber, dass wir inzwischen schon bei ein und derselben Briefgattung, z. B. Entlassbriefen, Unterschiede zwischen Kliniken und sogar einzelnen Personen haben. Wenn man nur eine ganz kleine Menge an Daten hat, funktionieren Analysen auf den eigenen Daten zwar sehr gut, aber man hatte nie die M\u00f6glichkeit, es einmal im gro\u00dfen Kontext auszuprobieren.<\/p>\n\n\n\n<p><strong>Bitte beenden Sie folgenden Satz:<\/strong> <strong>Das GeMTeX-Projekt ist eine Bereicherung f\u00fcr die deutsche Forschungslandschaft, weil&#8230;<\/strong><\/p>\n\n\n\n<p><strong>Christina Lohr:<\/strong> \u2026wir mit unseren Sprachmodellen Software f\u00fcr die klinische Dokumentation entwickeln k\u00f6nnen, die \u00c4rztinnen und \u00c4rzte entlasten kann.<\/p>\n\n\n\n<p><strong>Luise Modersohn: <\/strong>\u2026jetzt nicht mehr einzelne Forscherinnen und Forscher an ihrer kleineren oder gr\u00f6\u00dferen Arbeit sitzen, sondern sich das geballte Wissen aus den klinischen Standorten in Deutschland an einem Projekt beteiligen kann.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Wie klinische Texte f\u00fcr KI nutzbar werden, welche Herausforderungen es gibt und wie Klinik &#038; Forschung davon profitieren, erkl\u00e4ren GeMTeX-Projektmanagerinnen Interview.<\/p>\n","protected":false},"author":14,"featured_media":18662,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[41],"tags":[],"class_list":["post-18660","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-5-fragen-an"],"_links":{"self":[{"href":"https:\/\/www.smith.care\/de\/wp-json\/wp\/v2\/posts\/18660","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.smith.care\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.smith.care\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.smith.care\/de\/wp-json\/wp\/v2\/users\/14"}],"replies":[{"embeddable":true,"href":"https:\/\/www.smith.care\/de\/wp-json\/wp\/v2\/comments?post=18660"}],"version-history":[{"count":5,"href":"https:\/\/www.smith.care\/de\/wp-json\/wp\/v2\/posts\/18660\/revisions"}],"predecessor-version":[{"id":25332,"href":"https:\/\/www.smith.care\/de\/wp-json\/wp\/v2\/posts\/18660\/revisions\/25332"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.smith.care\/de\/wp-json\/wp\/v2\/media\/18662"}],"wp:attachment":[{"href":"https:\/\/www.smith.care\/de\/wp-json\/wp\/v2\/media?parent=18660"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.smith.care\/de\/wp-json\/wp\/v2\/categories?post=18660"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.smith.care\/de\/wp-json\/wp\/v2\/tags?post=18660"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}