Language // Język

Abstract

In this paper, I describe several approaches to automatic or semi-automatic creating symbolic rules for grammar checkers and propose a pure corpora-based approach.

Traditional a priori approaches can reuse existing positive or negative knowledge that is not based on empirical corpora research. For example, they reuse knowledge such as usage dictionaries, spelling dictionaries or formalized grammars. Mixed approaches apply linguistic knowledge to corpora to refine intuitive prescriptions described for humans in dictionaries. For example, it is relatively easy to use machine-learning methods, such as transformation-based learning (TBL) to create error-matching rules using real corpora material. TBL algorithms can start with dictionary knowledge (Mangu & Brill 1997) or with artificially introduced errors to corpora that were known to be relatively free from errors (Sjöberg & Knuttson 2005). Approaches based on reusing error corpora were often discarded as non-realistic, as creating such corpora is costly. Yet, there are ways to automate building such corpora by observing frequency of user revisions to the text (Miłkowski 2008).

I show how an error corpus generated from Wikipedia revision history can be used to automatically generate error-matching symbolic rules for grammar checkers. Though no error corpora can be considered complete, TBL algorithms deal with small corpora sufficiently well. Automated building of rules can also enhance grammar checkers’ rules precision.

I show some of the automatically generated rules for Polish and English: as they were learned using TBL, they had a symbolic form and were easily translatable to the notation required by LanguageTool, an open-source general-purpose proofreading software. As will be shown, some of the automatically generated rules tend to have higher recall than the ones manually crafted. TBL rules don’t allow the level of generality offered by LanguageTool (no regular expressions, not to mention such mechanisms as feature unification) so human intervention is useful to join the resulting rules together in a single LanguageTool rule.

See the full paper draft here.

Zapraszam do posłuchania prezentacji z zeszłorocznych warsztatów KNEW'07 (i posłuchania lub poczytania w niektórych wypadkach).

A przy okazji - warto przyjechać także w tym roku na kazimierskie warsztaty z naturalizmu.

Czytaj więcej: Materiały z KNEW'07

W sieci rozproszonych jest trochę moich prac, których nie publikowałem nigdzie lub które stały się podstawą innych tekstów. Inne dopiero zamierzam publikować, jak je wyszlifuję. A część będzie dostępna wyłącznie online. Oto wykaz tego, co pamiętam:

 

Od dawna w środkach masowego przekazu widuje się osoby mające rozstrzygać trudne dylematy. O takich osobach mówi się “autorytety” lub “eksperci”. Warto się zastanowić, czy “ekspert” różni się znaczeniem od “autorytetu” — taką drogą będę chciał dojść do tytułowego “moralisty”.

Czytaj więcej: Jak być moralistą w środkach masowego przekazu?

G.W.F. Hegel stał się znowu aktualnym filozofem lub teoretykiem społecznym. Skończyły się chyba czasy dominującej jeszcze do niedawna opinii, że był prekursorem totalitaryzmu i zupełnie bełkotliwym metafizykiem. Świadczy o tym pojawianie się książek pisanych w zupełnie innym duchu. Żeby odpowiedzieć na pytanie "dlaczego Hegel jest aktualny i co to znaczy?", sięgnijmy właśnie do nich. Zarysowano w nich pewną metodę lektury Hegla, dzięki której staje się on myślicielem współczesnym i inspirującym. Najpierw zatem przyjrzyjmy się trzem książkom, jakie ukazały się u nas w latach 1998-1999. Następnie warto będzie zastanowić się nad tym, czy istnieje granica "aktualizowania" myśli Hegla. Spróbuję wskazać także pewien program dla filozofii współczesnej, jaki się tu wyłania.

Czytaj więcej: Aktualność Hegla