Автоматизирана изследователска техника в цифрова среда с цел откриване и извличане на знания от неструктурирани данни. Чрез търсенето на ключови думи, инструментите за лексикални анализи и алгоритмите за извличане на информация, извличането на текст и данни позволява на изследователите да структурират съдържанието на научни (цифрови) бази данни или писмени публикации според техните предпочитания и за собствени научноизследователски цели. Тя също така позволява извличане и извличане на съответната информация и автоматично получаване на структурирани резултати, без да се налага да разглеждате всяка научна работа, намерена в просто търсене на ключови думи. Той се прилага все по-често в различни области - от пазарното и бизнес разузнаването до науката и инженерството (биоинформатика, геномика, медицина, образование). Извличането на данни е процесът на наблюдение на големи обеми данни чрез съчетаване на инструменти от статистиката и изкуствения интелект, за да се разпознаят полезните модели. Чрез събиране на информация за дейността на отделния човек дезинформационните агенти разполагат с механизъм, чрез който могат да се насочват към потребителите въз основа на техните публикации, харесвания и история на сърфирането. Общ страх сред изследователите е, че тъй като психологическите профили, подхранвани от извличането на данни, стават все по-сложни, те могат да се насочват към потребителите въз основа на това колко чувствителни са те да вярват в някои фалшиви разкази.
Извличане на висококачествена информация от текст и данни. За да бъде "добит", текстът трябва да бъде достъпен, копиран, анализиран, анотиран и свързан със съществуващата информация и разбиране. Дори ако потребителят има права за достъп до материала, правенето на пояснени копия може да бъде незаконно съгласно настоящото законодателство за авторското право без разрешението на притежателя на авторските права. Извличането на текст се отнася до използването на усъвършенствани техники за автоматизирано откриване на шаблони в (големи) текстове.
Automated research technique in the digital environment for the purpose of discovering and extracting knowledge from unstructured data. Via keyword searches, lexical analysis tools and mining algorithms, text- and data mining enables researchers to structure the content of scientific (numerical) databases or written publications after their preferences and for their own research purposes. It allows also for retrieving and extracting relevant information and automatically gaining structured results without having to browse each and every scientific work found in a simple keyword search. It is growingly applied in many different areas, from market and business intelligence to science and engineering (bioinformatics, genomics, medicine, education).
Data mining is the process of monitoring large volumes of data by combining tools from statistics and artificial intelligence to recognize useful patterns. Through collecting information about an individual’s activity, disinformation agents have a mechanism by which they can target users on the basis of their posts, likes and browsing history. A common fear among researchers is that, as psychological profiles fed by data mining become more sophisticated, users could be targeted based on how susceptible they are to believing certain false narratives.
Deriving high-quality information from text and data. In order to be 'mined', text must be accessed, copied, analysed, annotated and related to existing information and understanding. Even if the user has access rights to the material, making annotated copies can be illegal under current copyright law without the permission of the copyright holder.
Text mining refers to the use of advanced techniques for automated detection of patterns in (large) texts.