Wordbreaker e Stemmer
Há três módulos que estão na base quer do processo de indexação de informação, quer do processo de interrogação dessa mesma informação: o wordbreaker, o stemmer e uma stop list.
Wordbreaker
O wordbreaker tem por função separar um texto em palavras e expressões, sendo este o primeiro passo no processo de indexação dos textos. É também o wordbreaker que efectua a normalização das diferentes representações que os números, datas e horas podem ter para um formato único sobre o qual seja possível efectuar operações de pesquisa.
Compete ainda a este módulo o tratamento da acentuação (ou falta dela), das abreviaturas, das siglas e acrónimos e das palavras compostas por hifenização.
Stemmer
O stemmer fornece todas as palavras que têm um mesmo radical. É este módulo que permite, por exemplo, que uma pesquisa por "expropriação" recupere documentos que incluam as palavras "expropriações" ou "expropriado". Particularmente no português, em que existem tantos mecanismos de derivação, a utilização deste componente tem um impacto bastante grande na eficácia das pesquisas.
Stop list
Trata-se de uma lista das palavras mais frequentes do português que são ignoradas no processo de indexação por não acrescentarem qualquer informação útil para a localização de um assunto. São exemplos destas palavras "de" e "que".
Integração
A Priberam implementou as API IWordbreaker e IStemmer da Microsoft em 32 e em 64 bits, permitindo a integração de uma forma muito simples destes componentes com os seguintes produtos:
- Microsoft SharePoint Portal Server
- Microsoft SQL Server
- Microsoft Exchange Server
- Microsoft Office XP
- Microsoft Windows (Indexing Services)