Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
user
result
request
Query (SQL)
Database
hasil
System
Query (SQL)
Data Database
hasil base System
Syst #1
em
#1 ODBC
SQL
Query (SQL)
hasil Database
hasil System
Data #2
base
Syst
em
#2
Arry Akhmad Arman, aa@lss.ee.itb.ac.id 6
© 1999-2001, ARRY AKHMAD ARMAN - Electrical Engineering Dept. of ITB
Multimedia Database
result
result
request
user
Data Multimedia
Data Data
Data Data
Relational Document
Relational Document
Data Data
Data Data
Arry Akhmad Arman, aa@lss.ee.itb.ac.id 9
© 1999-2001, ARRY AKHMAD ARMAN - Electrical Engineering Dept. of ITB
Contoh Query : Image Query
z Tersedia foto dari orang yang dicurigai.
z Query
“Retrieve all images from the image library in
which the person appearing in the currently
displayed photograph appears”
z Kemungkinan
} User sudah tahu identitas orang dalam foto, query dapat
dilakukan melalui tekstual
} User tidak mengetahui identitasnya, query dilakukan
dengan bantuan image processing (recognition)
Arry Akhmad Arman, aa@lss.ee.itb.ac.id 10
© 1999-2001, ARRY AKHMAD ARMAN - Electrical Engineering Dept. of ITB
Contoh Query : Audio Query
z Polisi memiliki rekaman audio percakapan telpon antara orang
yang dicurigai dengan seseorang yang lain
z Query
} “Cari semua bagian percakapan yang mengandung kata ‘uang’
“ } Tentukan identitas orang yang berbicara dengan si-A
z Query
} “Cari semua segmen video yang memperlihatkan
penyerahan barang dari seseorang kepada orang
lain”
z Query
} “Cari semua artikel yang berhubungan dengan si-
A”
z Query
} “Cari semua transaksi transfer uang dari si-A
kepada orang lain yang nilainya lebih dari
100.000.000”
¿
Relational Database vs Object Oriented
¿
N-dimensional Data
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB
Objectives
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 3
Simple Image Database
Name Image File
John1.jpg
John John1.jpg
Budi Budi1.jpg
Budi1.jpg
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 4
What is the difference ?
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 5
How image store in
computer system?
• Pixel
• Resolution
• Image Type : B/W,
greyscale, color
• Color depth
• Memory capacity
• File standar
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 6
Image Compression
Image
Compression
Compressed
Representation
Image of Image
DeCompression
storage size = y
y<x
Original image (storage size = x)
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 7
Raw Images
object
• Content of image consist of objects.
• Such objects in an image could have
a variety of associated properties,
such as :
– Shape descriptor, describe the
shape/location of the region within
the object is located object
– Property descriptor, describe the
property of individual pixel or
group of pixel. In general, it will be
infeasible to associate properties
with individual pixels, and hence object
cells will be used most of the time.
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 8
Example
• Shape descriptor
– rectangle : XLB=10, XUB=60, YLB=5, YUB=50
• Property descriptor
– pixel at location (14,17) have the following value properties
Red=5, Green=1, Blue=3.
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 9
Definitions
• Definitions
– Definition 1 : Grid resolution of the image
– Definition 2 : Cell property
– Definition 3 : Object shape
– Definition 4 : Rectangle
– Definition 5 : Image Database (IDB)
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 10
Definition 1 : Grid Resolution
• Every image I, has an
associated pair of
positive integers (m,
n), called grid
resolution of the
image.
• This divides image
into (m x n) cells of
equal size, called
the image grid.
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 11
Definition 2 : Cell Property
• Examples
– (bwcolor, {b,w}, bwalgo)
– (graylevel, [0,1], grayalgo)
∑ ∑findgray(i, j)
grayalgo(cell) = XLB≤ i ≤ XUB YLB≤ j≤YUB
( XUB − XLB)(YUB −YLB)
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 12
Definition 3 : Object Shape
pixel position
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 13
Definition 4: Rectangle
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 14
Definition 5 : Image Database (IDB)
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 15
Two Important Things
– First, image are often very large object, (p1 x p2) pixel array.
Storing properties on pixel basis is usually infeasible. We
need image compression algorithms.
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 17
Transformation of an image
Compressed representation
Original image
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 18
Creation of compressed representation
• Creation of compressed representation consist of two
parts :
– Size selection.
The size h of the compressed representation is selected by the
image database designer. The larger the size, the greater is the
fidelity. However, as the size increases, so does the complexity
of creating an index for manipulating such representations, and
searching this index.
– Transform selection.
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 19
DFT (Discrete Fourier Transform)
2Πxa 2Πyb
1 p1 −1 p2 −1 −j +
DFT(x, y) = ∑ ∑ I (a,b) × e p
1
p
2
pp = =
1 2 a 0b 0
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 20
DCT (Discrete Cosine Transform)
2 p −1 p −1 (2r +1)Πi (2s +1)Πj
1 2
DCT(i, j) = α(i)α( j) ∑∑
cos × cos
pp r =0 s=0 2r 2s
1 2
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 21
Wavelet
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 22
Transformed Image Index
• Indexing of large volume of data is not easy.
• We can index image database at compressed
representation level (what is the problem??)
Index on
?
Raw images (original images)
compressed representations
user
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 23
Segmentation : Overview
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 24
Segmentation : Connected Regions
• Suppose I is an image
containing (m x n) cells.
• A connected regions R in R3
image I is a set of cells such
that if cells (x1,y1), (x2, y2) ∈ R1
R, there is a sequence of cells R2
C1, … Cn in R such that :
– C1 = (x1, y1) and
– Cn = (x2, y2) and
– The Euclidean distance between
cells Ci and Ci+1 for all 1 ≤ i ≤ n is
1.
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 25
Segmentation :
Homogeneity Predicate
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 26
Segmentation : Definition
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 27
Strategy : Split & Merge
• Split
We start with the whole image. If it is homogeneous,
then we are done, and the image is a valid segmentation
of itself. Otherwise, we split the image into two parts
and recursively repeat this process till we find a set ……
• Merge
We now check of the Ri that can be merged together.
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 28
Similarity-Based Retrieval
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 29
Similarity : Metric Approach
1024 1024
Map
Object
fe Indexing index Repository
algorithm
Original T1 T2 Tn Destination
Shape Shape
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 32
Example 1
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 33
Example 2
Arry Akhmad Arman, School of Electrical Engineering and Informatics, Information Technology, ITB 34
Alternative for Implementation
¿
Document Database Sample
D1 Jose Orojuelo’s Operations in Bosnia
D2 The Medellin Cartel’s Financial Organization
D3 The Cali Cartel’s Distribution Network
D4 Banking Operation and Money Laundering
D5 Profile of Hector Gomez
D6 Connection Between Terrorism and Asian Dope
Operations
D7 Hector Gomez : How He Gave Agents the Slip in Cali
D8 Sex, Drugs, and Videotape
D9 The Iranian Connection
D10 Boating and Drugs : Slip Owned by the Cali Cartel
z Synonymy
Given a topic T, the word T does not occur anywhere in a
document D, even though the document D is in fact
closely related to the topic T in question.
z Polysemy
The same word may mean many different things in
different context.
Relevant Documents
Documents Returned
by document retrieval algorithm
Relevant Documents
50 20 150
Documents Returned
by document retrieval algorithm
Precision.
The precision of an algorithm A for information retrieval, with respect
to suitable test sets and relevance definitions, is measured by
determining how many of the answers returned by the algorithm are
in fact correct.
Recall
The recall of an algorithm A is a measure of how many of the right
documents are in fact retrieved by the query.
Relevant Documents
All Documents
P= 20 +1 = 21
20+150 +1 171
150 20 50
R = 20 +1 =21
20 + 50 +1 71
Documents Returned
by document retrieval algorithm
Term/Doc d1 d2 d3 d4 d5 d6
t1 615 390 10 10 18 65
t2 15 4 76 217 91 816
t3 2 8 815 142 765 1
t4 312 511 677 11 711 2
t5 45 33 516 64 491 59
z Term distance
Suppose vec(I) denotes the number of occurences of term ti
in Q. Then the term distance between Q and document dr is
given by
∑ (vecQ ( j) − FreqT ( j, r))2
M
j =1
Cosine distance
This metric is used extensively in the document database world :
∑ (vec Q ( j) − FreqT ( j, r))M
j =1
M M
S adalah
MxN MxM MxR RxN matriks
singular.
= X X
MxN Mxk kxk kxN
© 1999-2002, ARRY AKHMAD ARMAN - Electrical Engineering Dept. of ITB 14
Sample
a1 a1 a1 a1 a1 20 0 0 0 0 b1 b1 ... b1 a1
1 2 3 4 5
0 16 0 0 0 1 2 N 5
a2
a2
a2
a2
a2
b 2 ...
1 2 3 4 5
0 0 12 0 0 1
b2
2
b2
N
a2
5
... ... ... ... ... ... ... ... ... ...
0
aM aM aM aM aM 0 0 0.08 0 b5 b5 b5 ... b5
N
1 2 3 4 5 0 0 0 0 0.004 1 2 3
a1 a1 a1 20 0 0 b1 b1 ... b1
1 2 3
0 16 0 1 2
a 2
a 2
a 2
b 2 b 2 ... b2N
1 2 3 1 2 N
... ... ... 0 0 12 b 3
b 3
... b 3
1 1 1
aM aM aM
1 2 3
Without SVD
z M=number of terms=1.000.000
z N=number of documents=10.000
z MxN matrix need 10.000.000.000 entries
x o y = ∑ xi × yi = dot product
i =1
z =1
synthesizer ini tidak dapat menghasilkan ucapan dengan tingkat kealamian yang
II.3 Konversi dari Teks ke Ucapan tinggi.
Suatu sistem Speech Synthesizer atau Text to Speech pada prinsipnya terdiri dari
Synthesizer yang menggunakan teknik diphone concatenation bekerja dengan
dua sub sistem, yaitu : cara menggabung-gabungkan segmen-segmen bunyi yang telah direkam
(1) bagian Konverter Teks ke Fonem (Text to Phoneme), serta sebelumnya. Setiap segmen berupa diphone (gabungan dua buah fonem).
Synthesizer jenis ini dapat menghasilkan bunyi ucapan dengan tingkat kealamian
(2) bagian Konverter Fonem to Ucapan (Phoneme to Speech).
(naturalness) yang tinggi.
Bagian Konverter Teks ke Fonem berfungsi mengolah kalimat masukan dalam
Struktur sistem seperti di atas pada prinsipnya merupakan konfigurasi tipikal yang
suatu bahasa tertentu yang berbentuk teks menjadi rangkaian kode-kode bunyi
digunakan pada berbagai sistem Text to Speech berbagai bahasa. Namun
yang biasanya direpresentasikan dengan kode fonem, durasi serta pitch-nya.
demikian, pada setiap sub-sistem terdapat sifat-sifat serta proses-proses yang
Bagian ini bersifat sangat language dependant. Untuk suatu bahasa baru, bagian
sangat spesifik terhadap bahasa yang digunakan.
ini harus dikembangkan secara lengkap khusus untuk bahasa tersebut.
Konversi dari teks ke fonem sangat dipengaruhi oleh aturan-aturan yang berlaku
dalam suatu bahasa. Pada prinsipnya proses ini melakukan konversi dari simbol-
Text KONVERTER KONVERTER Ucapan simbol tekstual menjadi simbol-simbol fonetik yang merepresentasikan unit bunyi
TEXT KE FONEM FONEM KE UCAPAN terkecil dalam suatu bahasa. Setiap bahasa memiliki aturan cara pembacaan dan
cara pengucapan teks yang sangat spesifik. Hal ini menyebabkan implementasi
Kode-kode fonem, unit konverter teks ke fonem menjadi sangat spesifik terhadap suatu bahasa.
pitch dan durasi
Untuk mendapatkan ucapan yang lebih alami, ucapan yang dihasilkan harus
Gambar II.7 Sistem Text to Speech
memiliki intonasi (prosody). Secara kuantisasi, intonasi adalah perubahan nilai
Bagian Konverter Fonem ke Ucapan akan menerima masukan berupa kode-kode pitch (frekuensi dasar) selama pengucapan kalimat dilakukan atau pitch sebagai
fonem serta pitch dan durasi yang dihasilkan oleh bagian sebelumnya. fungsi waktu. Pada prakteknya, informasi pembentuk intonasi berupa data-data
Berdasarkan kode-kode tersebut, bagian Konverter Fonem ke Ucapan akan pitch serta durasi pengucapannya untuk setiap fonem yang dibangkitkan. Nilai-
menghasilkan bunyi atau sinyal ucapan yang sesuai dengan kalimat yang ingin nilai yang dihasilkan diperoleh dari suatu model intonasi. Intonasi bersifat sangat
diucapkan. Ada beberapa alternatif teknik yang dapat digunakan untuk spesifik untuk setiap bahasa, sehingga model yang diperlukan untuk
implementasi bagian ini. Dua teknik yang banyak digunakan adalah formant membangkitkan data-data intonasi menjadi sangat spesifik juga untuk suatu
synthesizer, serta diphone concatenation. bahasa. Beberapa model umum, pernah dikembangkan untuk intonasi, tetapi
Formant synthesizer bekerja berdasarkan suatu model matematis yang akan untuk digunakan pada suatu bahasa masih perlu banyak penyesuaian yang harus
dilakukan.
melakukan komputasi untuk menghasilkan sinyal ucapan yang diinginkan.
Synthesizer jenis ini telah lama digunakan pada berbagai aplikasi. Walaupun dapat Konverter fonem ke ucapan berfungsi untuk membangkitkan sinyal ucapan
menghasilkan ucapan dengan tingkat kemudahan interpretasi yang baik, berdasarkan kode-kode fonem yang dihasilkan dari proses sebelumnya. Sub
sistem ini harus memiliki pustaka setiap unit ucapan dari suatu bahasa. Pada
Document2 Document2
II-3 II-4
sistem concatenation, sistem harus didukung oleh suatu diphone database yang Tahap berikutnya adalah melakukan konversi dari teks yang sudah secara lengkap
berisi rekaman segmen-segmen ucapan yang berupa diphone. Ucapan dalam suatu merepresentasikan kalimat yang ingin diucapkan menjadi kode-kode fonem.
bahasa dibentuk dari satu set bunyi yang mungkin berbeda untuk setiap bahasa, Konversi teks menjadi fonem biasanya dilakukan dengan dua cara. Sebagian
oleh karena itu setiap bahasa harus dilengkapi dengan diphone database yang proses konversi dapat dilakukan dengan aturan konversi yang sederhana dan
berbeda. berlaku umum untuk berbagai kondisi. Sebagian proses lainnya bersifat
Tahapan-tahapan utama konversi dari teks menjadi ucapan dapat dinyatakan kondisional, tergantung dari huruf-huruf atau fonem-fonem tetangganya, bahkan
terdapat bentuk-bentuk translasi yang tidak dapat ditemukan keteraturannya.
dengan diagram seperti terlihat pada Gambar II.8.
Konversi yang teratur dapat diimplementasikan dengan tabel konversi yang berisi
Text
pasangan antara urutan huruf dan urutan fonem, bahkan mungkin hanya berisi
satu huruf dan satu fonem. Aturan yang lebih sulit biasanya diimplementasikan
Text
Normalization dengan tabel konversi yang akan diterapkan jika kondisi rangkaian huruf tetangga
kiri dan kanannya terpenuhi. Contoh bentuk aturan konversi huruf ke fonem yang
memenuhi teknik tersebut adalah sebagai berikut.
Conversion
eTexttoPhonem
Exception Dictionary Letter-to-Phoneme
Lookup Conversion Left-context [letter-set] right-context = phoneme string
Huruf tertentu yang ditunjuk dalam posisi [letter-set] akan dikonversikan menjadi
suatu fonem dalam “phoneme string” jika left-context dan right context terpenuhi.
Prosody
Generation Bahasa Inggris termasuk bahasa yang tidak mempunyai keteraturan konversi teks
ke fonem. Suatu TTS bahasa Inggris biasanya dilengkapi dengan suatu basis data
Phonetic
yang berisi ribuan kata serta konversi padanan urutan fonemnya. Bahasa
Analysis
Indonesis termasuk bahasa yang jelas aturan konversinya. Sebagian besar kata
PhonemetoSpeech
Speech Parameters Indonesia dapat dikonversikan menjadi fonem dengan aturan yang jelas, walaupun
Generation
Conversion
Speech tetap ada kondisi-kondisi yang tidak dapat ditemukan keteraturannya. Sebagai
Production
contoh, simbol huruf e dapat diucapkan sebagai e pepet atau e taling, artinya
Speech Waveform
harus dikonversikan menjadi fonem yang berbeda untuk kondisi yang berbeda.
Dalam blok diagram di atas, kondisi yang masih dapat ditangani oleh aturan
Gambar II.8. Konversi dari Teks ke Ucapan (dimodifikasi dari Pelton, 1992) diimplementasikan dengan blok Letter to Phoneme Conversion. Konversi yang
tidak teratur ditangani oleh bagian Exception Dictionary Lookup.
Hasil dari tahap tersebut adalah rangkaian fonem yang merepresentasikan bunyi
Tahap normalisasi teks berfungsi untuk mengubah semua teks kalimat yang ingin
kalimat yang ingin diucapkan. Bagian prosody generator akan melengkapi setiap
diucapkan menjadi teks yang secara lengkap memperlihatkan cara
unit fonem yang dihasilkan dengan data durasi pengucapannya serta pitchnya.
pengucapannya. Lihat contoh kalimat dan hasil normalisasinya pada Gambar II.9.
Data durasi serta pitch diperoleh berdasarkan kombinasi antara tabel atau database
Document2 Document2
II-5 II-6
serta model prosody. Secara simbolik, hasil dari bagian ini sudah menghasilkan
informasi yang cukup untuk menghasilkan ucapan yang diinginkan.
II.4 Sintesa Menggunakan Metoda Diphone Concatenation
Satu tahap berikutnya yang masih sering dilakukan adalah Phonetic Analysis.
Pembentukan ucapan pada pensintesa ucapan menggunakan metoda diphone
Tahap ini dapat dikatakan sebagai tahap penyempurnaan, yaitu melakukan
concatenation pada prinsipnya dilakukan dengan cara menyusun sejumlah
perbaikan di tingkat bunyi. Sebagai contoh, dalam bahasa Indonesia, fonem /k/
diphone yang bersesuaian sehingga diperoleh ucapan yang diinginkan. Sebagai
dalam kata bapak tidak pernah diucapkan secara tegas, atau adanya sisipan
contoh, pada gambar II.10 diperlihatkan pembentukan kata atau ucapan
fonem /y/ dalam pengucapan kata rupiah.
“komputer” yang disusun dari diphone-diphone _k, ko, om dan seterusnya.
Text bapak membeli 5 kerang
seharga Rp 500,-
Text bapak membeli lima _k ko om mp pu ut te er r_
Normalization
kerang seharga lima
ratus rupiah
a//N/ .../r//u//p//i//a//h/
Diphone
/b/, 40 ms, 90 hz
Prosody /a/, 56 ms, 95 hz
Generation
Gambar II.10. Pembentukan Ucapan “komputer” dari Diphone-Diphone nya
/p/, 35 ms, 96 hz
/a/, 75 ms, 105 hz
/b/, 40 ms, 90 hz /k/, 40 ms, 104 hz Supaya pensitesa ucapan dapat mengucapkan semua kemungkinan kata atau
/a/, 56 ms, 95 hz Phonetic ...
/p/, 35 ms, 96 hz Analysis /a/, 60 ms, 102 hz kalimat yang ada dalam suatu bahasa, sistem tersebut harus didukung oleh
/a/, 75 ms, 105 hz /h/, 45 ms, 100 hz
/k/, 40 ms, 104 hz
diphone database yang terdiri dari semua kombinasi diphone yang mungkin
... Speech Parameters terjadi. Diphone concatenation engine atau unit pemroses diphone akan menerima
/a/, 60 ms, 102 hz Generation
/h/, 45 ms, 100 hz Speech masukan berupa daftar fonem yang ingin diucapkan, masing-masing disertai oleh
durasi pengucapannya, serta pitch atau frekuensinya. Pengaturan durasi serta pitch
Speech Waveform
Production (Formant Synth.) akan membentuk intonasi pengucapan yang diinginkan. Berdasarkan daftar fonem
yang diterima, unit ini akan menentukan susunan diphone yang sesuai.
Gambar II.9. Besaran-besaran Dalam Setiap Tahap Proses Konversi Selanjutnya, unit ini akan melakukan smoothing sambungan antar diphone,
dari Teks ke Ucapan (dimodifikasi dari Pelton, 1992) manipulasi durasi pengucapan serta manipulasi pitch.
Document2 Document2
II-7 II-8
PSOLA (MBR-PSOLA), serta Linear Prediction-PSOLA (LP-PSOLA) [Dut97]. diberikan kepada alat-alat ucap manusia, sehingga akhirnya dihasilkan ucapan
Tabel II.1 memperlihatkan perbandingan karakteristik teknik-teknik tersebut. yang sesuai dengan pesan yang ingin diucapkan.
k, dur, pitch
o, dur, pitch
m, dur, pitch
p, dur, pitch
u, dur, pitch
t, dur, pitch
e, dur, pitch
ucapan "komputer"
r, dur, pitch
Diphone
Concatenation
Engine
Diphone
Database
Document2 Document2
II-9 II-10
Pada saat vocal cord berada dalam keadaan lemas, aliran udara akan melalui memperlihatkan potongan sinyal selama 100 mili detik, sehingga seluruh gambar
daerah yang sempit pada vocal tract dan menyebabkan terjadinya turbulensi, tersebut memperlihatkan sinyal ucapan sepanjang 500 mili detik.
sehingga menghasilkan suara yang dikenal sebagai unvoiced sound.
Sinyal ucapan merupakan sinyal yang berubah terhadap waktu dengan kecepatan Pada gambar II.14 di atas sudah tercantum label-label S, U dan V yang dapat
perubahan yang relatif lambat. Jika diamati pada selang waktu yang pendek mempermudah untuk mengamati perbedaan keadaan-keadaan tersebut. Baris
(antara 5 sampai dengan 100 mili detik), karakteristiknya praktis bersifat tetap; pertama serta awal baris kedua ditandai dengan S, artinya bagian tersebut
tetapi jika diamati pada selang waktu yang lebih panjang karakteristiknya terlihat merepresentasikan keadaan diam dimana pembicara belum mengucapkan apapun.
berubah-ubah sesuai dengan kalimat yang sedang diucapkan. Gambar II.14 Amplituda kecil yang tampak pada perioda tersebut merupakan noise latar
memperlihatkan contoh sinyal ucapan dari suatu kalimat bahasa Inggris “It’s belakang yang ikut terekam.
time” yang diucapkan oleh seorang pria. Setiap baris pada gambar tersebut
Document2 Document2
II-11 II-12
Suatu perioda singkat unvoiced (U) tampak mendahului vocal pertama dalam kata
“It”. Selanjutnya diikuti oleh daerah voiced (V) yang cukup panjang,
merepresentasikan vokal “i”. Berikutnya diikuti oleh daerah unvoiced (U)
berikutnya yang merepresentasikan daerah pelemahan pengucapan “i”. Setelah itu
diikuti oleh silence (S) yang merupakan bagian dari fonem “t”, dan seterusnya.
Dari contoh tersebut jelas bahwa segmentasi ucapan menjadi S, U dan V tidak
bersifat eksak, artinya ada daerah-daerah yang tidak dapat dikategorikan dengan
tegas ke dalam salah satu dari tiga kategori tersebut. Salah satu penyebabnya
adalah perubahan dari keadaan-keadaan alat ucap manusia yang tidak bersifat
diskrit dari satu keadaan ke keadaan lainnya, sehingga bunyi transisi dari satu
segmen ke segmen lainnya menghasilkan bentuk yang tidak mudah ditentukan.
Selain itu, ada segmen-segmen ucapan yang mirip atau bahkan mengandung
silence didalamnya.
Representasi sinyal dalam diagram waktu terhadap amplituda seperti gambar Gambar II.15. Spektogram Pita Lebar, Spektogram Pita Sempit dan Amplituda
sebelumnya seringkali tidak cukup untuk mendapatkan besaran-besaran kuantitatif Ucapan dari kalimat “Every Salt Breeze Comes From Sea” [Rab93]
yang efektif untuk melakukan analisis dari suatu ucapan. Untuk melakukan analisis
Spektogram dibedakan menjadi spektogram pita lebar (wideband spectogram) dan
sinyal ucapan, lebih sering digunakan representasi spektral menggunakan spektogram
spektogram pita sempit (narrowband spectogram). Spektogram pita lebar adalah
seperti terlihat pada Gambar II.15. Dengan menggunakan spektogram, dapat
analisis spectral pada suatu interval sepanjang 15 mili detik menggunakan filter
diidentifikasikan komponen-komponen frekuensi dari suatu segmen ucapan. Segmen
dengan lebar pita 125 Hz serta analisis detail yang dilakukan setiap 1 mili detik.
ucapan yang bentuknya mirip pada domain waktu lebih mudah dibedakan pada
Spektogram pita sempit adalah analisis spectral pada suatu interval sepanjang 50
spektogram dengan cara melihat perbedaan komponen frekuensinya.
mili detik menggunakan filter dengan lebar pita 40 Hz serta analisis detail yang
dilakukan setiap 1 mili detik. Spektogram pita lebar dapat digunakan untuk
melihat komponen-komponen frekuensi utama dari suatu ucapan dengan jelas,
seperti terlihat pada gambar paling atas dari gambar II.15 tersebut. Sebagian
komponen frekuensi yang tidak dominan menjadi tidak terlihat pada spektogram
pita lebar. Untuk melihat komponen-komponen frekuensi yang lebih rinci
dilakukan menggunakan spektogram pita sempit, seperti yang terlihat pada
gambar kedua dari atas pada Gambar II.15.
Document2 Document2
II-13 II-14
Unit bunyi terkecil yang dapat dibedakan oleh manusia disebut fonem. Suatu
ucapan kata atau kalimat pada prinsipnya dapat dilihat sebagai urutan fonem.
Himpunan fonem yang ada dalam suatu bahasa berbeda-beda. Setiap fonem
disimbolkan dengan suatu simbol yang unit. Saat ini ada beberapa standar cara
penamaan fonem yang berlaku (Rabiner 1993, _____), diantaranya adalah standar
(1) IPA (International Phonetic Alphabet) 1, (2) ARPABET, serta (3) SAMPA.
Tabel II.1 memperlihatkan daftar fonem bahasa Inggris-Amerika serta
representasinya dalam simbol-simbol IPA serta ARPABET.
Tabel II.1
Fonem-fonem Bahasa Inggris-Amerika dalam standar IPA dan ARPABET
[Rab93]
Setiap fonem memiliki ciri-ciri yang berbeda. Gambar II.16 memperlihatkan
daftar fonem serta pengkalisifikasiannya untuk bahasa Inggris-Amerika.
1 Sistem abjad yang disusun oleh l’Association Phonetique Internationale pada 1897 atas
prakarsa Otto Jespersen, dengan tujuan supaya orang dapat belajar dan merekam lafal perbagai Gambar II.16. Daftar dan Klasifikasi Fonem Bahasa Inggris-Amerika [Rab93]
bahasa secara cermat dan menghindari ketikakonsistenan; didasarkan pada huruf Latin dengan
berbagai tambahan [Yus98]
Document2 Document2
II-15 II-16
II.5.3.1 Vokal Gambar II.18. Spektogram Sinyal Ucapan Vokal Bahasa Inggris [Rab93]
Sinyal ucapan vokal memiliki bentuk kuasi periodik seperti terlihat pada Gambar
II.17. Setiap vokal mempunyai komponen frekuensi tertentu yang membedakan II.5.3.2 Diftong
karakter satu fonem vokal dengan fonem vokal lainnya, seperti terlihat pada Diftong pada prinsipnya adalah dua fonem vokal yang berurutan dan diucapkan
spektogram Gambar II.18. Fonem vokal Bahasa Inggris mencakup fonem- tanpa jeda. Fonem diftong Bahasa Inggris mencakup /AY/, /OY/, /AW/, dan /EY/.
fonem /IY/, /IH/, /EH/, /AE/, /AA/, /ER/, /AH/, /AX/, /AO/, /UW/, /UH/, dan Karakteristik diftong mirip dengan karakteristik fonem-fonem vokal
/OW/. Penelitian untuk mengidentifikasikan karakteristik fonem-fonem vokal pembentuknya disertasi bentuk transisinya.
Bahasa Indonesia pernah dilakukan dan dipublikasikan oleh Arry Akhmad Arman
(Arman, 1999).
Konsonan nasal dibangkitkan dengan eksitasi glotal dan vocal tract mengerut total
pada beberapa titik tertentu sepanjang lintasan pengucapan. Bagian belakang
langit-langit merendah, sehingga udara mengalir melalui nasal tract dengan suara
yang dipancarkan melalui lubang hidung. Konsonan nasal Bahasa Inggris
adalah /M/, /N/, dan /NX/. Contoh bentuk sinyal ucapan serta spektogramnya
dapat dilihat pada Gambar II.20.
Document2 Document2
II-17 II-18
Gambar II.20. Contoh Sinyal dan Spektogram Konsonan Nasal Bahasa Inggris
Gambar II.21. Contoh Sinyal dan Spektogram Konsonan Frikatif Bahasa Inggris
[Rab93]
[Rab93]
Document2 Document2
II-19
Gambar II.22. Contoh Sinyal dan Spektogram Konsonan Stop Bahasa Inggris
[Rab93]
Document2
Video Databases
¿
Type of Video Request
z Property
z Object Scheme
z Object Instance
z Activity Scheme
z Activity
z Examples :
(height, R+) : “height” property with positif real values.
(primarycolors, {red, green, blue})
(lisence_plate, X)
(shirtcolor, Colors)
z Example :
Activity Lecturing may have the
scheme {(Lecturer, Person), (Topic,
String)} and equations :
Lecturer = Prof. Felix
Topic = Video Databases
z Example :
frame sequence [6,12) denotes the set of
frames {6, 7, 8, 9, 10, 11}
z Example :
X = {[1,5),[5,7),[9,11)}
X is well ordered, but X is not solid --> [1,5) and [5,7)
X = {[1,7),[9,11)}
X is well ordered, and solid