【数据挖掘导论】数据类型
数据类型 数据集的不同表现在很多方面。例如:描述数据对象的属性可有具有不同的类型——定量的或者定性的。并且数据集可能还具有特定的性质,如包含时间序列或者彼此相关联。这因为如此,数据的类型决定我们应使用何种工具和技术来分析数据。此外,数据挖掘
数据类型数据集的不同表现在很多方面。例如:描述数据对象的属性可有具有不同的类型——定量的或者定性的。并且数据集可能还具有特定的性质,如包含时间序列或者彼此相关联。这因为如此,数据的类型决定我们应使用何种工具和技术来分析数据。此外,数据挖掘的研究也是为了适应新的应用领域和新的数据类型。
数据的质量 数据通常远非完美,尽管大部分的数据挖掘技术都容忍不完美的数据,但注重理解和提高数据质量将是改进精确分析结果的重要途径之一。
使数据适合挖掘的预处理步骤 通常,原始数据必须经过加工才能适合分析。而加工处理一方面是提高数据的质量,另一方面让数据更好的适应特定的数据挖掘技术或者工具。
根据数据联系分析数据 数据分析的一种方法是找出数据对象之间的联系,之后使用这些联系而不是数据对象本身进行其余的分析。
通常,数据集可以看作数据对象的集合。数据对象可以是:记录,点,向量,模式等。数据对象用一组刻画对象基本特性的属性描述,如:变量,字段,特征或者维。




属性的类型告诉我们,属性的那些性质反映在用于测量它的值中。知道属性的类型的重要性,因为它告诉我们测量值的那些性质与属性的基本性质一致,从而使我,恶魔得以避免计算雇员的平均ID这也愚蠢的行为,需要注意的是,通常将属性的类型称作测量标度的类型。
属性的不同类型 一种指定属性类型的有用方法是:确定对应属性基本性质的数值的性质。如:长度的属性可以有数值的许多性质,按长度比较对象,确定对象的排序,以及长度的差与比例都是有意义的。数值如下的操作通常用来描述属性:




属性的类型也可以用不改变属性意义的变换来描述,如:长度可用米或者英尺来度量。下表给出上表的四种属性类型的允许变换:


用值的个数描述属性 区分属性的一种独立的方法就是根据属性可能取值的个数来判断 离散的(discrete)离散属性具有有限个或无限个可数个值。通常离散属性应整数变量表示。二元属性(binary attribute)是离散属性的一种特殊情况,只接受两个值:真假,是否,01等。二元属性用布尔变量表示。
连续的(continuous)连续属性是取实数值的属性。如温度,高度等。通常,连续属性用浮点变量表示。
从理论上讲,任何测量标度类型(标称的,序数的,区间的,比率的)都可以与基于属性值个数的任意类型(二元的,离散的,连续的)组合。有些组合并不常出现,或者没有什么意义。
非对称属性 对于非对称属性(asymmetric attribute),出现非零属性值才是重要的。如:对于一个,每个对象都是学生的数据集。每个属性记录学生是否选修大学的某个课程。对于某个学生,选修某个属性的课程,值为1,否则为0。由于学生只能选所有可选的课程的一部分,因此这种数据集的大部分值为0,因此关注非零值将更有意义。只有非零值才重要的二元属性是非对称的二元属性。
数据集的类型 数据集的类型有很多,一般我们将数据集分为三组:记录数据,基于图形的数据和有序数据。
数据集的一般特性 维度(dimensionality)数据集的维度是数据集中的对象具有的属性数目,分为底,中,高维度。在分析数据的时候,最好将数据的维度降低。因为在分析高维度数据的时候,会陷入所谓的维灾难(curse of dimensionality)。因此,数据预处理的一个重要的动机就是减少维度,称为维归约(dimensionality reduction)
稀疏性(sparsity)有些数据集,如具有非对称特征的数据集,一个对象的大部分属性上的值都是0,在许多情况下,非零项还不到1%。事实上,稀疏性是一个优点,因为只有非零值才需要存储和处理。这将大大节省计算时间和存储空间。
分辨率(resolution)常常可以在不同的分辨率下得到数据,且在不同的分辨率下数据的性质也不同。如:在几米的分辨率下,地表看起来很不平坦,但在数十公里的分辨率下却相对平坦。
记录数据 许多数据挖掘任务都是假定数据集是记录(数据对象)的汇集,每个记录包含固定的数据字段(属性)集。下面介绍不同类型的记录数据:


事务数据或购物篮数据 事务数据(transaction data)是一种特殊类型的记录数据,其中每个记录(数据)涉及一系列的项。考虑顾客一次购物所买的商品集合构成一个事务,而所有购买的商品作为项。这种类型的数据称作购物篮数据(market basket data)。
数据矩阵 如果一个数据集族中所有数据对象都具有相同的数值属性集,则数据对象可以看作多维空间的点(向量),其中每个维代表对象的一个不同属性。这样的数据对象集可以用一个m*n的矩阵表示,其中m行,一个对象一行;n列,一个属性一列。这种矩阵称作数据矩阵(data matrix)或模式矩阵(pattern matrix)。
稀疏数据矩阵 稀疏数据矩阵是数据矩阵的一种特殊的情况,其中属性的类型相同并且是非对称的,即只有非零值才是重要的。事务数据是仅含0-1元素的稀疏数据矩阵的例子。另一个常见的便是文档数据。文档集合的表示通常称作文档-词矩阵(document-term matrix),如图2-2d,文档是该矩阵的行,词是该矩阵的列。
基于图形的数据 有时图形可以有效的表示数据,但有两种特殊的情况:图形捕获数据对象之间的联系;数据对象本身用图形表示。
担忧对象之间联系的数据 对象之间的联系常常携带重要的信息。这种情况下,数据常常用图形表示。一般把数据对象映射到图的结点,而对象之间的联系用对象之间的链或方向,权值等表示。如相互链接的网页。
具有图形对象的数据 如果对象具有结构,即对象包含具有联系的子对象,则这样的对象常常用图形表示。如化学物的结构用图形表示。
有序数据 对于某些数据类型,属性涉及到时间或空间序的联系。如下:


时序数据 时序数据(sequential data)也称时间数据(temporal data),可以看作记录数据的扩充,其中每一个记录包含一个与之相关联的时间。时间也可以与每个属性相关,如:每个记录可以是一位顾客的购物历史,包含不同时间购买的商品列表。使用这些信息,我们也许可能发现:买了iPhone的人是不会在关注那些低端的android机的。
序列数据 序列数据(sequence data)是一个数据集合,它是各个实体的序列,如:词或字母的序列,基因组序列等
时间序列数据 时间序列数据(time series data)是一种特殊的时序数据,其中每个记录都是一个时间序列(time series),即一段时间以来的测量序列。如图2-4c,记录的是一个地方1982年到1994年月平均的时间序列。需要注意的是:在分析时间数据时,需要考虑时间自相关(temporal autocorrelation),即如果两个测量的时间很近,则这些测量的值通常非常的相似。
空间数据 某些数据也许还会拥有空间属性,如位置或区域。空间数据的例子有很多,比如:从不同地方收集气象数据。空间数据的一个重要的特点就是空间自相关性(spatial autocorrelation),即物理上靠近的对象趋向于其他方面也相似。
处理非记录数据 大部分数据挖掘算法都是为记录数据或其变体(事务数据,数据矩阵)设计的。通过对象中提取特征,并使用这些特征创建对应与每个对象的记录,针对记录数据的技术也可以用与非记录数据。如化学结构的数据,给定一个常见的子结构集合,每个化合物都可以用一个具有二元属性的记录表示,这些二元属性指出化合物是否包含特定的子结构,这也的表示实际上是事务数据集,其中事务是化合物,而项是子结构。

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen











DDREASE ist ein Tool zum Wiederherstellen von Daten von Datei- oder Blockgeräten wie Festplatten, SSDs, RAM-Disks, CDs, DVDs und USB-Speichergeräten. Es kopiert Daten von einem Blockgerät auf ein anderes, wobei beschädigte Blöcke zurückbleiben und nur gute Blöcke verschoben werden. ddreasue ist ein leistungsstarkes Wiederherstellungstool, das vollständig automatisiert ist, da es während der Wiederherstellungsvorgänge keine Unterbrechungen erfordert. Darüber hinaus kann es dank der ddasue-Map-Datei jederzeit gestoppt und fortgesetzt werden. Weitere wichtige Funktionen von DDREASE sind: Es überschreibt die wiederhergestellten Daten nicht, füllt aber die Lücken im Falle einer iterativen Wiederherstellung. Es kann jedoch gekürzt werden, wenn das Tool explizit dazu aufgefordert wird. Stellen Sie Daten aus mehreren Dateien oder Blöcken in einer einzigen wieder her

0.Was bewirkt dieser Artikel? Wir schlagen DepthFM vor: ein vielseitiges und schnelles generatives monokulares Tiefenschätzungsmodell auf dem neuesten Stand der Technik. Zusätzlich zu herkömmlichen Tiefenschätzungsaufgaben demonstriert DepthFM auch hochmoderne Fähigkeiten bei nachgelagerten Aufgaben wie dem Tiefen-Inpainting. DepthFM ist effizient und kann Tiefenkarten innerhalb weniger Inferenzschritte synthetisieren. Lassen Sie uns diese Arbeit gemeinsam lesen ~ 1. Titel der Papierinformationen: DepthFM: FastMonocularDepthEstimationwithFlowMatching Autor: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Die von Google geförderte Leistung von JAX hat in jüngsten Benchmark-Tests die von Pytorch und TensorFlow übertroffen und belegt bei 7 Indikatoren den ersten Platz. Und der Test wurde nicht auf der TPU mit der besten JAX-Leistung durchgeführt. Obwohl unter Entwicklern Pytorch immer noch beliebter ist als Tensorflow. Aber in Zukunft werden möglicherweise mehr große Modelle auf Basis der JAX-Plattform trainiert und ausgeführt. Modelle Kürzlich hat das Keras-Team drei Backends (TensorFlow, JAX, PyTorch) mit der nativen PyTorch-Implementierung und Keras2 mit TensorFlow verglichen. Zunächst wählen sie eine Reihe von Mainstream-Inhalten aus

Stehen Sie vor einer Verzögerung oder einer langsamen mobilen Datenverbindung auf dem iPhone? Normalerweise hängt die Stärke des Mobilfunk-Internets auf Ihrem Telefon von mehreren Faktoren ab, wie z. B. der Region, dem Mobilfunknetztyp, dem Roaming-Typ usw. Es gibt einige Dinge, die Sie tun können, um eine schnellere und zuverlässigere Mobilfunk-Internetverbindung zu erhalten. Fix 1 – Neustart des iPhone erzwingen Manchmal werden durch einen erzwungenen Neustart Ihres Geräts viele Dinge zurückgesetzt, einschließlich der Mobilfunkverbindung. Schritt 1 – Drücken Sie einfach einmal die Lauter-Taste und lassen Sie sie los. Drücken Sie anschließend die Leiser-Taste und lassen Sie sie wieder los. Schritt 2 – Der nächste Teil des Prozesses besteht darin, die Taste auf der rechten Seite gedrückt zu halten. Lassen Sie das iPhone den Neustart abschließen. Aktivieren Sie Mobilfunkdaten und überprüfen Sie die Netzwerkgeschwindigkeit. Überprüfen Sie es erneut. Fix 2 – Datenmodus ändern 5G bietet zwar bessere Netzwerkgeschwindigkeiten, funktioniert jedoch besser, wenn das Signal schwächer ist

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

Neues SOTA für multimodale Dokumentverständnisfunktionen! Das Alibaba mPLUG-Team hat die neueste Open-Source-Arbeit mPLUG-DocOwl1.5 veröffentlicht, die eine Reihe von Lösungen zur Bewältigung der vier großen Herausforderungen der hochauflösenden Bildtexterkennung, des allgemeinen Verständnisses der Dokumentstruktur, der Befolgung von Anweisungen und der Einführung externen Wissens vorschlägt. Schauen wir uns ohne weitere Umschweife zunächst die Auswirkungen an. Ein-Klick-Erkennung und Konvertierung von Diagrammen mit komplexen Strukturen in das Markdown-Format: Es stehen Diagramme verschiedener Stile zur Verfügung: Auch eine detailliertere Texterkennung und -positionierung ist einfach zu handhaben: Auch ausführliche Erläuterungen zum Dokumentverständnis können gegeben werden: Sie wissen schon, „Document Understanding“. " ist derzeit ein wichtiges Szenario für die Implementierung großer Sprachmodelle. Es gibt viele Produkte auf dem Markt, die das Lesen von Dokumenten unterstützen. Einige von ihnen verwenden hauptsächlich OCR-Systeme zur Texterkennung und arbeiten mit LLM zur Textverarbeitung zusammen.

Ich weine zu Tode. Die Daten im Internet reichen überhaupt nicht aus. Das Trainingsmodell sieht aus wie „Die Tribute von Panem“, und KI-Forscher auf der ganzen Welt machen sich Gedanken darüber, wie sie diese datenhungrigen Esser ernähren sollen. Dieses Problem tritt insbesondere bei multimodalen Aufgaben auf. Zu einer Zeit, als sie ratlos waren, nutzte ein Start-up-Team der Abteilung der Renmin-Universität von China sein eigenes neues Modell, um als erstes in China einen „modellgenerierten Datenfeed selbst“ in die Realität umzusetzen. Darüber hinaus handelt es sich um einen zweigleisigen Ansatz auf der Verständnisseite und der Generierungsseite. Beide Seiten können hochwertige, multimodale neue Daten generieren und Datenrückmeldungen an das Modell selbst liefern. Was ist ein Modell? Awaker 1.0, ein großes multimodales Modell, das gerade im Zhongguancun-Forum erschienen ist. Wer ist das Team? Sophon-Motor. Gegründet von Gao Yizhao, einem Doktoranden an der Hillhouse School of Artificial Intelligence der Renmin University.

Diese Woche gab FigureAI, ein Robotikunternehmen, an dem OpenAI, Microsoft, Bezos und Nvidia beteiligt sind, bekannt, dass es fast 700 Millionen US-Dollar an Finanzmitteln erhalten hat und plant, im nächsten Jahr einen humanoiden Roboter zu entwickeln, der selbstständig gehen kann. Und Teslas Optimus Prime hat immer wieder gute Nachrichten erhalten. Niemand zweifelt daran, dass dieses Jahr das Jahr sein wird, in dem humanoide Roboter explodieren. SanctuaryAI, ein in Kanada ansässiges Robotikunternehmen, hat kürzlich einen neuen humanoiden Roboter auf den Markt gebracht: Phoenix. Beamte behaupten, dass es viele Aufgaben autonom und mit der gleichen Geschwindigkeit wie Menschen erledigen kann. Pheonix, der weltweit erste Roboter, der Aufgaben autonom in menschlicher Geschwindigkeit erledigen kann, kann jedes Objekt sanft greifen, bewegen und elegant auf der linken und rechten Seite platzieren. Es kann Objekte autonom identifizieren
