Підтримку української додано в Apache Lucene!
https://git-wip-us.apache.org/repos/asf ... ;h=4a71e03
https://git-wip-us.apache.org/repos/asf ... ;h=6ef174f
Наразі маємо аналізатор, що базується на словнику (dict_uk), є ідеї реалізувати «динамічний» аналізатор, що не потребує словника, або який працює, як додатковий, що активується лише для слів, відсутніх у словнику
P.S. список ПЗ і вебсторінок, що використовують Lucene
Підтримка української в Lucene
Модератор: Анатолій
Re: Підтримка української в Lucene
Український модуль повнотекстового пошуку в Lucene (і відповідно ElasticSearch) протестовано і прийнято для впровадження в Українську Вікіпедію. Раніше використовувався (дещо модифікований) російський (з відповідною якістю пошуку). Незабаром відбудеться реіндексація.
А ми вже готуємо нову версію аналізатора з розширеним словником (277 тис. лем) та покращеною лематизацією власних назв.
А ми вже готуємо нову версію аналізатора з розширеним словником (277 тис. лем) та покращеною лематизацією власних назв.