1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 488 489 490 491 492 493 494 495 496 497 498 499 500 501 502 503 504 505 506 507 508 509 510 511 512 513 514 515 516 517 518 519 520 521 522 523 524 525 526 527 528 529 530 531 532 533 534 535 536 537 538 539 540 541 542 543 544 545 546 547 548 549 550 551 552 553 554 555 556 557 558 559 560 561 562 563 564 565 566 567 568 569 570 571 572 573 574 575 576 577 578 579 580 581 582 583 584 585 586 587 588 589 590 591 592 593 594 595 596 597 598 599 600 601 602 603 604 605 606 607 608 609 610 611 612 613 614 615 616 617 618 619 620 621 622 623 624 625 626 627 628 629 630 631 632 633 634 635 636 637 638 639 640 641 642 643 644 645 646 647 648 649 650 651 652 653 654 655 656 657 658 659 660 661 662 663 664 665 666 667 668 669 670 671 672 673 674 675 676 677 678 679 680 681 682 683 684 685 686 687 688 689 690 691 692 693 694 695 696 697 698 699 700 701 702 703 704 705 706 707 708 709 710 711 712 713 714 715 716 717 718 719 720 721 722 723 724 725 726 727 728 729 730 731 732 733 734 735 736 737 738 739 740 741 742 743 744 745 746 747 748 749 750 751 752 753 754 755 756 757 758 759 760 761 762 763 764 765 766 767 768 769 770 771 772 773 774 775 776 777 778 779 780 781 782 783 784 785 786 787 788 789 790 791 792 793 794 795 796 797 798 799 800 801 802 803 804 805 806 807 808 809 810 811 812 813 814 815 816 817 818 819 820 821 822 823 824 825 826 827 828 829 830 831 832 833 834 835 836 837 838 839 840 841 842 843 844 845 846 847 848 849 850 851 852 853 854 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 870 871 872 873 874 875 876 877 878 879 880 881 882 883 884 885 886 887 888 889 890 891 892 893 894 895 896 897 898 899 900 901 902 903 904 905 906 907 908 909 910 911 912 913 914 915 916 917 918 919 920 921 922 923 924 925 926 927 928 929 930 931 932 933 934 935 936 937 938 939 940 941 942 943 944 945 946 947 948 949 950 951 952 953 954 955 956 957 958 959 960 961 962 963 964 965 966 967 968 969 970 971 972 973 974 975 976 977 978 979 980 981 982 983 984 985 986 987 988 989 990 991 992 993 994 995 996 997 998 999 1000 1001 1002 1003 1004 1005 1006 1007 1008 1009 1010 1011 1012 1013 1014 1015 1016 1017 1018 1019 1020 1021 1022 1023 1024 1025 1026 1027 1028 1029 1030 1031 1032 1033 1034 1035 1036 1037 1038 1039 1040 1041 1042 1043 1044 1045 1046 1047 1048 1049 1050 1051 1052 1053 1054 1055 1056 1057 1058 1059 1060 1061 1062 1063 1064 1065 1066 1067 1068 1069 1070 1071 1072 1073 1074 1075 1076 1077 1078 1079 1080 1081 1082 1083 1084 1085 1086 1087 1088 1089 1090 1091 1092 1093 1094 1095 1096 1097 1098 1099 1100 1101 1102 1103 1104 1105 1106 1107 1108 1109 1110 1111 1112 1113 1114 1115 1116 1117 1118 1119 1120 1121 1122 1123 1124 1125 1126 1127 1128 1129 1130 1131 1132 1133 1134 1135 1136 1137 1138 1139 1140 1141 1142 1143 1144 1145 1146 1147 1148 1149 1150 1151 1152 1153 1154 1155 1156 1157 1158 1159 1160 1161 1162 1163 1164 1165 1166 1167 1168 1169 1170 1171 1172 1173 1174 1175 1176 1177 1178 1179 1180 1181 1182 1183 1184 1185 1186 1187 1188 1189 1190 1191 1192 1193 1194 1195 1196 1197 1198 1199 1200 1201 1202 1203 1204 1205 1206 1207 1208 1209 1210 1211 1212 1213 1214 1215 1216 1217 1218 1219 1220 1221 1222 1223 1224 1225 1226 1227 1228 1229 1230 1231 1232 1233 1234 1235 1236 1237 1238 1239 1240 1241 1242 1243 1244 1245 1246 1247 1248 1249 1250 1251 1252 1253 1254 1255 1256 1257 1258 1259 1260 1261 1262 1263 1264 1265 1266 1267 1268 1269 1270 1271 1272 1273 1274 1275 1276 1277 1278 1279 1280 1281 1282 1283 1284 1285 1286 1287 1288 1289 1290 1291 1292 1293 1294 1295 1296 1297 1298 1299 1300 1301 1302 1303 1304 1305 1306 1307 1308 1309 1310 1311 1312 1313 1314 1315 1316 1317 1318 1319 1320 1321 1322 1323 1324 1325 1326 1327 1328 1329 1330 1331 1332 1333 1334 1335 1336 1337 1338 1339 1340 1341 1342 1343 1344 1345 1346 1347 1348 1349 1350 1351 1352 1353 1354 1355 1356 1357 1358 1359 1360 1361 1362 1363 1364 1365 1366 1367 1368 1369 1370 1371 1372 1373 1374 1375 1376 1377 1378 1379 1380 1381 1382 1383 1384 1385 1386 1387 1388 1389 1390 1391 1392 1393 1394 1395 1396 1397 1398 1399 1400 1401 1402 1403 1404 1405 1406 1407 1408 1409 1410 1411 1412 1413 1414 1415 1416 1417 1418 1419 1420 1421 1422 1423 1424 1425 1426 1427 1428 1429 1430 1431 1432 1433 1434 1435 1436 1437 1438 1439 1440 1441 1442 1443 1444 1445 1446 1447 1448 1449 1450 1451 1452 1453 1454 1455 1456 1457 1458 1459 1460 1461 1462 1463 1464 1465 1466 1467 1468 1469 1470 1471 1472 1473 1474 1475 1476 1477 1478 1479 1480 1481 1482 1483 1484 1485 1486 1487 1488 1489 1490 1491 1492 1493 1494 1495 1496 1497 1498 1499 1500 1501 1502 1503 1504 1505 1506 1507 1508 1509 1510 1511 1512 1513 1514 1515 1516 1517 1518 1519 1520 1521 1522 1523 1524 1525 1526 1527 1528 1529 1530 1531 1532 1533 1534 1535 1536 1537 1538 1539 1540 1541 1542 1543 1544 1545 1546 1547 1548 1549 1550 1551 1552 1553 1554 1555 1556 1557 1558 1559 1560 1561 1562 1563 1564 1565 1566 1567 1568 1569 1570 1571 1572 1573 1574 1575 1576 1577 1578 1579 1580 1581 1582 1583 1584 1585 1586 1587 1588 1589 1590 1591 1592 1593 1594 1595 1596 1597 1598 1599 1600 1601 1602 1603 1604 1605 1606 1607 1608 1609 1610 1611 1612 1613 1614 1615 1616 1617 1618 1619 1620 1621 1622 1623 1624 1625 1626 1627 1628 1629 1630 1631 1632 1633 1634 1635 1636 1637 1638 1639 1640 1641 1642 1643 1644 1645 1646 1647 1648 1649 1650 1651 1652 1653 1654 1655 1656 1657 1658 1659 1660 1661 1662 1663 1664 1665 1666 1667 1668 1669 1670 1671 1672 1673 1674 1675 1676 1677 1678 1679 1680 1681 1682 1683 1684 1685 1686 1687 1688 1689 1690 1691 1692 1693 1694 1695 1696 1697 1698 1699 1700 1701 1702 1703 1704 1705 1706 1707 1708 1709 1710 1711 1712 1713 1714 1715 1716 1717 1718 1719 1720 1721 1722
|
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<HTML>
<HEAD>
<TITLE>Manuel de l'utilisateur</TITLE>
<META NAME="GENERATOR" CONTENT="Mozilla/3.01Gold (X11; I; Linux 2.0.33 i686) [Netscape]">
</HEAD>
<BODY TEXT="#000000" BGCOLOR="#FFFFFF" LINK="#0000EF" VLINK="#51188E" ALINK="#FF0000">
<h1 align="center">Manuel du transcripteur</h1>
<center><p>Conventions de transcription pour<br>
les enregistrements radio-tldiffuss</p></center>
<center><p><i>Version 1.21, 24 mars 2004</i></p></center>
<center><p>(valable avec les version 1.4.1 et plus rcentes de Transcriber)</p></center>
<hr width="100%">
<h2><a href="#r1">1. Introduction</a></h2>
<ul>
<li><a href="#r11">1.1. Documents audios concerns</a></li>
<li><a href="#r12">1.2. Objectifs du manuel</a></li>
<li><a href="#r13">1.3. Versions</a></li>
</ul>
<h2><a href="#r2">2. Structuration de la transcription</a></h2>
<p><b><a href="#r21">2.1. Enregistrement</a></b></p>
<ul>
<li><a href="#r211">2.1.1. Comment transcrire un nouvel enregistrement?</a></li>
<li><a href="#r212">2.1.2. Caractristiques de l'enregistrement</a></li>
</ul>
<p><b><a href="#r22">2.2. Segmentation du signal</a></b></p>
<ul>
<li><a href="#r221">2.2.1. O segmenter?</a></li>
<li><a href="#r222">2.2.2. Comment segmenter?</a></li>
</ul>
<p><b><a href="#r23">2.3. Tours et locuteurs</a></b></p>
<ul>
<li><a href="#r231">2.3.1. Comment crer les tours de parole?</a></li>
<li><a href="#r232">2.3.2. Caractristiques des tours</a></li>
<li><a href="#r233">2.3.3. Caractristiques des locuteurs</a></li>
<li><a href="#r234">2.3.4. Parole simultane</a></li>
</ul>
<p><b><a href="#r24">2.4. Sections et thmes</a></b></p>
<ul>
<li><a href="#r241">2.4.1. Que faut-il transcrire?</a></li>
<li><a href="#r242">2.4.2. Type et thme des sections</a></li>
<li><a href="#r243">2.4.3. Comment indiquer les sections?</a></li>
</ul>
<p><b><a href="#r25">2.5. Transcription orthographique</a></b></p>
<ul>
<li><a href="#r251">2.5.1. Comment transcrire?</a></li>
<li><a href="#r252">2.5.2. Conventions de transcription</a></li>
<li><a href="#r253">2.5.3. Transcription ou prononciation ambigu</a></li>
</ul>
<p><b><a href="#r26">2.6. Bruits et conditions acoustiques</a></b></p>
<ul>
<li><a href="#r261">2.6.1. Comment noter les bruits ?</a></li>
<li><a href="#r262">2.6.2. Bruits de l'appareil phonatoire (non-parole)</a>
<ul>
<li>Respiration</li>
<li>Autres bruits de bouche et de gorge</li>
</ul>
</li>
<li><a href="#r263">2.6.3. Bruits extrieurs l'acte de
parole</a></li>
<li><a href="#r264">2.6.4. Changement de conditions acoustiques</a></li>
</ul>
<p><b><a href="#r27">2.7. Commentaires</a></b></p>
<h2><a href="#r3">3. Conventions de transcription</a></h2>
<p><b><a href="#r31">3.1. Conventions d'criture</a></b></p>
<ul>
<li><a href="#r311">3.1.1. Majuscules/minuscules</a></li>
<li><a href="#r312">3.1.2. Ponctuations</a></li>
<li><a href="#r313">3.1.3. Apostrophe</a></li>
<li><a href="#r314">3.1.4. Trait d'union</a></li>
<li><a href="#r315">3.1.5. Sigles</a></li>
<li><a href="#r316">3.1.6. Abrviations</a></li>
<li><a href="#r317">3.1.7. Nombres</a></li>
<li><a href="#r318">3.1.8. Dates</a></li>
<li><a href="#r319">3.1.9. Chiffres romains</a></li>
<li><a href="#r3110">3.1.10. Adresses internet</a></li>
</ul>
<p><b><a href="#r32">3.2. Mots hors-lexique</a></b></p>
<ul>
<li><a href="#r321">3.2.1. Mots d'origine trangre, changement
de langue</a></li>
<li><a href="#r322">3.2.2. Noms propres trangers</a></li>
<li><a href="#r323">3.2.3. Mots techniques, nouveaux mots, noms propres
inconnus</a></li>
</ul>
<p><b><a href="#r33">3.3. Spcificits du langage parl</a></b></p>
<ul>
<li><a href="#r331">3.3.1. Onomatopes</a></li>
<li><a href="#r332">3.3.2. Rptitions</a></li>
<li><a href="#r333">3.3.3. Elisions & formes rduites</a></li>
<li><a href="#r334">3.3.4. Troncatures</a></li>
<li><a href="#r335">3.3.5. Lapsus</a></li>
<li><a href="#r336">3.3.6. Prononciation errone</a></li>
<li><a href="#r337">3.3.7. Liaisons</a></li>
<li><a href="#r338">3.3.8. pellations</a></li>
<li><a href="#r339">3.3.9. Ponctuation verbalise</a></li>
</ul>
<h2><a href="#r4">4. Vrification</a></h2>
<ul>
<li><a href="#r41">4.1. Comment vrifier la transcription ?</a></li>
</ul>
<p>
</p><hr width="100%"><p></p>
<h2><a name="r1"></a>1. Introduction</h2>
<p>La cration manuelle de transcriptions d'enregistrements de journaux
radio- ou tldiffuss, permet de faire avancer les
recherches en transcription automatique, en indexation et en archivage
de ce type de documents sonores.</p>
<h4><a name="r11"></a>1.1. Documents audios concerns</h4>
<p>Les enregistrements de journaux radio- ou tldiffuss
prsentent un contenu vari : le signal acoustique peut correspondre
de la parole, de la musique ou du bruit, mais galement
des mlanges de parole, de musique et de bruit. Ensuite
il y a, pour la parole proprement dite, une grande diversit de
locuteurs et de thmes abords. Plusieurs personnes peuvent
intervenir sur un sujet donn successivement, voire simultanment.
La qualit acoustique de l'enregistrement (fidlit)
peut varier de manire considrable au cours du temps. La
dure de tels enregistrements peut varier de quelques dizaines de
minutes plusieurs heures. </p>
<p>Pour l'instant nous nous intressons plus particulirement
aux nouvelles (journal, flash, revue de presse, incluant mto
et bourse, conomie, faits de socit ...) dans le
document sonore. Toute autre forme d'enregistrement (publicits,
jeux, fictions....) ne sera pas transcrite. </p>
<h4><a name="r12"></a>1.2. Objectifs du manuel</h4>
<p>Nous dcrivons dans ce qui suit un ensemble de conventions pour
<b>structurer</b>, <b>annoter</b> et <b>transcrire</b> des enregistrements
de journaux radio- ou tldiffuss. Ces conventions
doivent permettre de structurer les enregistrements au niveau du contenu
thmatique, des locuteurs et de la qualit acoustique. Les
informations produites ce sujet sont nommes <b>annotations</b>.
La parole de chaque locuteur doit aussi tre transcrite orthographiquement.
C'est la <b>transcription</b> proprement dite. La transcription est ici
la partie la plus importante et donc sur laquelle le maximum d'attention
doit tre port. </p>
<p>Les diffrentes tapes du travail de transcription sont
: la segmentation de la bande son, l'identification des tours de paroles
et des locuteurs, l'identification des sections thmatiques, la
transcription orthographique, et la vrification. Ces tapes
peuvent tre menes en parallle ou au contraire appliques
squentiellement sur de longues portion du signal, suivant le choix
du transcripteur. </p>
<h4><a name="r13"></a>1.3. Versions</h4>
<p>version 1.2.1 (mars 2003) :
<ul>
<li>Mise jour des conventions d'annotations des mots mals prononcs : ceux-ci doivent toujours tre prcds d'une toile mme si une balise de prononciation effective "+[pron=...]" est prsente (cf. <a href="#r336"> 3.3.6</a>)</li>
<li>Ajout de conventions concernant la segmentation des passages sans locuteurs (musique, jingle, etc.) par cration d'un tour de parole sans locuteur (cf. <a href="#r231"> 2.3.1</a>)</li>
<li>Correction de l'orthographe de "pourcent" qui doit s'crire "pour cent".</li>
<li>Diverses modifications mineures : mise en cohrence des prsentes conventions avec l'interface graphique de Transcriber ([lexical=...] devient [lex=...], [pronounce=...] devient [pron=...] ...</li>
</ul>
<hr width="100%">
<p>version 1.2 (octobre 2003) :
<ul>
<li>Conventions concernant les tours de parole traduite simultanment explicites (cf. <a href="#r234"> 2.3.4</a>)</li>
<li>Ajout de conventions concernant les nombres fractionnaires et ordinaux (cf. <a href="#r317"> 3.1.7</a>)</li>
<li>Mise jour des conventions concernant les chiffres romains (cf. <a href="#r319"> 3.1.9</a>) et les adresses internet (<a href="#r3110"> 3.1.10</a>)</li>
</ul>
<hr width="100%">
<p>version 1.1 (juillet 2003) :
<ul>
<li>L'exemple de <tt>France-Inter</tt> est remplac par la graphie officielle
<tt>France Inter</tt>.</li>
<li>Ajout de prcisions sur l'utilisation du marqueur d'orthographe
incertaine ^^ (cf. <a href="#r323"> 3.2.3</a>)</li>
<li>Explicitation de l'utilisation du raccourci % (cf. fin <a href="#r317"> 3.1.7</a>)</li>
<li>Le marquage des entits spcifiques par des guillemets est rendu
facultatif dans l'attente de conventions plus dtailles (cf. <a href="#r311"> 3.1.1</a>)</li>
<li>Abandon de la notation <tt>.point</tt> ou <tt>,virgule</tt> pour
la ponctuation pele.</li>
</ul>
<p>version 1.0 (juin 1999) : La premire version stable du prsent manuel.</p>
<h2><a name="r2"></a>2. Structuration de la transcription</h2>
<p>L'tape d'annotation vise structurer les enregistrements,
c'est--dire segmenter et dcrire le signal
acoustique diffrents niveaux jugs pertinents pour
le traitement ultrieur. Il s'agit ici principalement de l'identit
du locuteur, de l'identification du contenu thmatique, ou de la
qualit du canal de transmission (acoustique).</p>
<p>Actuellement, un document de transcription est structur de la
manire la suivante :</p>
<ul>
<li>L'<i><u>enregistrement</u></i> correspond la totalit
de l'enregistrement transcrire. </li>
<li>L'enregistrement est dcoup en <i><u>sections</u></i>,
dlimitant les parties des missions transcrire,
les enchanements journalistiques, ou les parties non-transcrites.</li>
<li> l'intrieur d'une section on va distinguer les <i>tours
de parole</i> (<i><u>turn</u></i>) qui correspondent des changements
de locuteur.</li>
<li>Les tours de paroles sont eux-mmes dcoups en
segments plus courts au moyen de points de synchronisation. La transcription
proprement dite n'intervient qu' ce niveau de structuration.</li>
<li>A certains points de synchronisation, des changements durables de bruit
de fond sont indiqus ; cette segmentation en conditions acoustiques
est indpendante de la structuration en tours et sections.</li>
</ul>
<h3><a name="r21"></a>2.1. Enregistrement</h3>
<h4><a name="r211"></a>2.1.1. Comment transcrire un nouvel enregistrement?</h4>
<ul>
<li>Dmarrez Transcriber (cf. manuel de rfrence
!)</li>
<li>Crez une nouvelle transcription avec le menu [<tt>Fichier</tt>]/[<tt>Nouvelle
transcription</tt>]. Une fentre de dialogue propose de choisir le
fichier son transcrire. </li>
<li>Indiquez les informations gnrales associes
l'enregistrement dans la fentre [<tt>Fichiers</tt>]/[<tt>Paramtres
de l'pisode</tt>].</li>
<li>Si vous voulez rutiliser certains locuteurs ou sujets d'une
transcription prcdente, vous pouvez le faire ds
prsent avec [<tt>Edition</tt>]/[<tt>Locuteurs</tt>]/[<tt>Importer
partir du fichier...</tt>] et [<tt>Edition</tt>]/[<tt>Sujets</tt>]/[<tt>Importer
partir du fichier...</tt>].</li>
<li>Enregistrez la nouvelle transcription vide avec [<tt>Fichier</tt>]/[<tt>Enregistrer</tt>].
Un nom par dfaut driv du nom du signal sera propos.</li>
<li>Enregistrez la configuration avec [<tt>Options</tt>]/[<tt>Enregistrer
la configuration</tt>], afin de rouvrir automatiquement ces fichiers
au prochain dmarrage</li>
</ul>
<p>Par la suite, pensez enregistrer frquemment votre travail
avec [<tt>Fichier</tt>]/[<tt>Enregistrer</tt>] ou le raccourci <tt>Control-s</tt>,
surtout si vous n'avez pas activ la sauvegarde automatique. Par
ailleurs, un double affichage du signal (un avec une rsolution
de 10 secondes, l'autre de une minute environ) peut tre pratique.</p>
<h4><a name="r212"></a>2.1.2. Caractristiques de l'enregistrement</h4>
<p>Les informations associes un enregistrement, dites
avec [<tt>Fichiers</tt>]/[<tt>Paramtres de l'pisode</tt>],
sont les suivantes :</p>
<ul>
<li><b>l'identit du transcripteur </b>(par exemple <tt>Claire Montaigne</tt>)
est automatiquement remplie ;</li>
<li><b>le nom du fichier</b> son transcrire (par exemple <tt>france-inter980428-0700:0820</tt>)
est automatiquement renseign ;</li>
<li><b>la date et le numro de version</b> de la transcription sont
automatiquement renseigns par le logiciel et ne peuvent pas tre
modifis ;</li>
<li><b>le programme: la provenance</b> du document sonore (c'est--dire
qui a enregistr), <b>la chane</b> qui a diffus le
document (par exemple <tt>France Inter</tt>) et <b>le nom de l'mission</b>
(par exemple <tt>tranche matinale 7-9</tt>) ;</li>
<li><b>la date de diffusion</b> ;</li>
<li><b>la langue principale</b> de diffusion.</li>
</ul>
<p>Pour des enregistrements de mme nature (par exemple sur plusieurs
jours) il convient de respecter la mme nomenclature pour des programmes
identiques.</p>
<h3><a name="r22"></a>2.2. Segmentation du signal</h3>
<p>Pour fournir des repres temporels par rapport au signal, et
pour faciliter le travail de transcription, on segmente le signal en insrant
des balises temporelles <i>instantanes</i> de synchronisation (ou
frontires).</p>
<h4><a name="r221"></a>2.2.1. O segmenter?</h4>
<p>Nous recommandons de faire correspondre ces balises des groupes
de souffle dans le signal ou des marques de ponctuation dans le
langage crit. Pour des raisons techniques du traitement ultrieur
il est galement souhaitable de fournir une balise de synchronisation
aprs diffrents types de problmes au niveau acoustique
(mots mal prononcs, bruit court superpos un mot...).</p>
<p>En rsum, l'insertion d'une frontire de synchronisation
est recommand dans les situations suivantes :</p>
<ul>
<li><b>dbut et fin d'locution,</b></li>
<li><b>respiration,</b></li>
<li><b>ponctuation</b>,</li>
<li><b>mauvaise prononciation,</b></li>
<li><b>bruit instantan,</b></li>
<li><b>dbut et fin de musique...</b></li>
</ul>
<h4><a name="r222"></a>2.2.2. Comment segmenter?</h4>
<ul>
<li>Choisissez une rsolution d'environ 30 secondes pour l'affichage
du signal.</li>
<li>Lancez la restitution partir du dbut du signal ou
du dbut de la section non encore transcrite.</li>
<li>Pendant la restitution, chaque instant correspondant
un changement de locuteur ou une zone de silence, une pause, une respiration,
un changement de conditions acoustiques... insrez une frontire
en pressant la touche <tt>Return</tt>. Une nouvelle ligne prcde
d'un petit cercle apparat dans la fentre de texte, et la
segmentation sous le signal est scinde au niveau du curseur.</li>
</ul>
<p>Vous obtenez une segmentation grossire d'une partie du signal
en intervalles de 5 20 secondes en moyenne. Il est possible de
positionner les frontires plus prcisment par la
suite. </p>
<h3><a name="r23"></a>2.3. Tours et locuteurs</h3>
<p> ce niveau on dcrit la succession de tours de parole
avec les diffrents locuteurs qui interviennent. </p>
<h4><a name="r231"></a>2.3.1. Comment crer les tours de parole?</h4>
<ul>
<li>Affichez le signal une rsolution d'environ 30 secondes
ou plus et coutez le signal.</li>
<li>Si un nouveau locuteur prend la parole au dbut du segment courant,
indiquez le dbut d'un nouveau tour de parole avec [<tt>Segmentation</tt>]/[<tt>Crer
un tour...</tt>] ou le raccourci <tt>Control-t</tt>.</li>
<li>Le locuteur du tour doit tre identifi :
<ul>
<li>Si le locuteur est connu et existe dj dans la liste,
il suffit de cliquer sur son nom. </li>
<li>Pour un nouveau locuteur, le nom peut tre tap directement
au clavier. Si l'identit est inconnue cliquez simplement sur <tt>Crer
un locuteur</tt>. Les caractristiques du locuteur (l'orthographe
prcise de son nom, le genre, l'accent...) peuvent tre modifies
plus tard.</li>
</ul></li>
<li>S'il s'agit de parole superpose, validez l'option correspondante
et identifiez le deuxime locuteur de la mme faon.</li>
<li>D'autres caractristiques du tour (type de parole, canal, qualit)
peuvent ventuellement tre renseigns.</li>
<li>Des tours de parole spcifiques avec l'indication "Pas de locuteur"
doivent tre utiliss pour les passages sans parole (musique, jingle, silence,etc.) d'une dure significative ( de l'ordre de 1s ou plus ) : </li>
</ul>
<ul style="list-style: none;">
<li><b>NB : Les balises de bruit de fond ne doivent tre utilises que
pour annoter un phnomne en arrire plan. Ainsi, prenons l'exemple
d'un segment ne contenant que de la musique, il devra tre annot
l'aide d'une balise [musique] sans indication de bruit de fond, qui
serait alors une redondance puisque l'information temporelle du
segment dlimite dj l'venement dans le temps et la balise en donne
son type.</b> <br><br> <img src="../img/pas_de_locuteur.png" alt="[Locuteurs]"></li>
</ul>
<p>A la cration d'un tour, le locuteur propos par dfaut
est l'avant-dernier utilis, ce qui est pratique dans le cas d'un
dialogue. </p>
<h4><a name="r232"></a>2.3.2. Caractristiques des tours</h4>
<p>Pour chaque <b>tour de parole</b> le transcripteur indique :</p>
<ul>
<li><b>un identificateur du locuteur</b>,</li>
</ul>
<p>et ventuellement si cela est demand :</p>
<ul>
<li><b>le type de parole :</b> prpar, spontan</li>
<li><b>la qualit du son</b> : bon, moyen, faible</li>
<li><b>le canal de transmission</b> : intervention tlphonique
ou prise en studio</li>
</ul>
<h4><a name="r233"></a>2.3.3. Caractristiques des locuteurs</h4>
<p>Pour chaque nouveau <b>locuteur</b> le transcripteur indique :</p>
<ul>
<li><b>le nom du locuteur</b> s'il est identifi, sinon un numro
de locuteur avec un qualificatif (au titre duquel l'inconnu est intervenu
dans l'mission).</li>
<li><b>le statut :</b> orthographe connue ou incertaine.</li>
<li><b>le sexe du locuteur :</b> <tt>homme, femme, inconnu</tt></li>
<li><b>langue maternelle :</b> oui/non. </li>
<li><b>l'accent :</b> on peut spcifier ici les diffrents
accents : rgionaux, francophones, trangers.</li>
<li><b>le statut global/local</b> : un nom est global s'il est identifiable
en dehors du contexte de la transcription (par exemple, un journaliste,
un homme politique connu, etc.)</li>
</ul>
<p>Il est important de respecter l'orthographe des noms. On peut trouver
les noms des journalistes et des diffrentes missions radio
et tl franais dans le guide <i>MdiaSid</i>.</p>
<p>On considre tout francophone (franais, belge, suisse,
qubcois) de langue maternelle franaise.</p>
<h4><a name="r234"></a>2.3.4. Parole simultane</h4>
<p>Il faut distinguer diffrentes situations de parole superpose
:</p>
<ol>
<li>Un locuteur parle, et un autre intervient ponctuellement par des interjections
(<tt>hum oui </tt>...) ; il convient de noter ces dernires comme
de simples bruits se superposant la parole.</li>
<li>Un locuteur parle en premier plan, et une ou plusieurs voix sont audibles
un niveau moindre (par exemple la voix d'un traducteur est superpose
la voix d'origine) ; seule la voix au premier plan est transcrite
et un marqueur de bruit de fond (de type parole ou conversation) doit tre
utilis.</li>
<li>Deux locuteurs dialoguent, se coupent mutuellement la parole et parlent
simultanment sur plusieurs mots. Le mcanisme de gestion
de parole simultane dcrit ci-aprs peut tre
appliqu. En cas de difficult, les segments pourront tre
annots comme parole "non-transcrite" .</li>
<li>Si plus de deux locuteurs interviennent un fort niveau sonore,
il faut annoter la portion de signal comme "non-transcrite".</li>
</ol>
<P>Dans le cas de parole <b>traduite simultanment</b>, les rgles prcdemment nonces s'appliquent. Ainsi si on entend le locuteur traduit s'exprimer seul pendant plus d'un mot, un tour de paroles sera cr. Pour les autres cas (moins d'un mot prononc seul ou traducteur s'exprimant simultanment) on insrera une balise bruit de fond de type parole. L'intgralit du passage traduit sera encadr par deux balises de type commentaire: {traduction-}....{-traduction} :
<br><br>
<img src="../img/traduction.png" alt="[Parole traduite]">
<p>Dans le cas de parole <b>simultane</b> avec deux locuteurs (cas
numro 3), le deuxime locuteur est identifi dans
la fentre des paramtres du tour aprs avoir valid
<tt>Parole superpose</tt>. L'affichage dans le logiciel est par
exemple :</p>
<ul style="list-style: none;">
<li><p><b><tt>Patricia Martin + Invite1</tt></b></p>
<ul style="list-style: none;">
<li><p><b>1: </b><tt>videmment dcouvert que</tt></p></li>
<li><p><b>2: </b><tt>enfin n'oubliez pas</tt></p></li>
</ul>
</li>
</ul>
<p>Dans la transcription, <b>1:</b> va identifier les paroles (<i>videmment
dcouvert que</i>) du <b>premier</b> locuteur (<tt>Patricia Martin</tt>)
et <b>2:</b> les paroles (<i>enfin n'oubliez pas</i>) du deuxime
locuteur <tt>Invite1</tt>. Les frontires au niveau du signal seront
poses au niveau des frontires de mot, de sorte
inclure dans le segment ainsi dcoup, toute la parole superpose
(par exemple si le mot <i>enfin</i> du locuteur 2 ne dmarre qu'
la fin du mot <i>videmment</i> du locuteur 1, ce dernier est quand
mme inclus dans le segment).</p>
<p>Cependant la transcription de ce type de signal est trs coteuse.
l'heure actuelle on ne sait pas traiter de manire satisfaisante
la parole superpose et les transcriptions, mmes si elles
sont produites, ne sont pas encore exploites. Le transcripteur
peut donc choisir de marquer simplement le signal comme parole superpose
sans transcription, avec ventuellement un commentaire dcrivant
la situation ou le contenu du dialogue.</p>
<h3><a name="r24"></a>2.4. Sections et thmes</h3>
<p>La structuration complte d'un enregistrement peut tre
complexe : une succession d'missions, composes de sections
journalistiques, subdivises elles-mmes en rubriques thmatiques...
En l'tat actuel du logiciel, il faut choisir un seul niveau de
dcoupage (en sections journalistiques ou en rubriques thmatiques)
et les frontires des segments ne sont pas toujours videntes
; une structuration plus fine est envisage pour l'avenir.</p>
<h4><a name="r241"></a>2.4.1. Que faut-il transcrire?</h4>
<p>Un enregistrement peut contenir des segments sans intrt
pour le traitement automatique ultrieur. Les transcriptions sont
limites aux missions d'information avec les messages d'introduction
et de conclusion. Le reste sera annot <i>non-transcribed</i>, c'est--dire
inexploitable et ne sera pas transcrit.</p>
<h4><a name="r242"></a>2.4.2. Type et thme des sections</h4>
<p>Un enregistrement est dcoup en <i><u>sections</u></i>
de 3 types :</p>
<ul>
<li>Les segments de type <i><u>report</u></i> rfrent
des parties d'mission transcrire (journal, chronique...).
Pour chaque section journalistique, le transcripteur peut indiquer un thme
gnral (<tt>journal, revue de presse, chronique, politique,
faits de socit, conomie, bourse, culture, sports,
mto</tt>) choisi dans une liste prdfinie,
suivi ventuellement d'un titre rsum.</li>
<li>Les segments de type <i><u>filler</u></i> ne concernent pas directement
le thme journalistique abord, mais rfrent
plutt l'organisation rdactionnelle, l'enchanement
des journalistes ou des invits etc.</li>
<li>Les segments de type <i><u>non-trans</u></i> sont les parties de l'enregistrement
dont la transcription n'est pas souhaite ; il convient d'indiquer
au moins la nature de ces segments suivi ventuellement d'un titre
rsum (par exemple : <tt>publicit - les prts
malins du CA</tt>). </li>
</ul>
<h4><a name="r243"></a>2.4.3. Comment indiquer les sections?</h4>
<ul>
<li>Affichez le signal une rsolution d'environ 30 secondes
ou plus et coutez le signal.</li>
<li>A chaque changement d'mission ou de sujet (et en fonction des
consignes donnes), indiquez le dbut d'une nouvelle section
avec [<tt>Segmentation</tt>]/[<tt>Crer une section...</tt>] ou
le raccourci <tt>Control-e</tt>.</li>
<li>Indiquez pour chaque section :
<ul>
<li>le <b>type</b> de la section :<i>report</i>, <i>filler</i>, <i>non-transcribed</i></li>
<li>un <b>thme</b> gnral (<tt>journal, politique
intrieure, international</tt>, <br>
<tt>bourse, conomie, culture, sports, mto, faits
de socit, revue, chronique, ...) </tt>suivi ventuellement
d'une courte description du sujet.</li>
</ul></li>
</ul>
<h3><a name="r25"></a>2.5. Transcription orthographique</h3>
<p>Nous abordons ici les problmes de transcriptions des segments
de parole. Ces conventions concernent d'abord la parole pour laquelle la
transcription graphmique peut tre ambigu. Elles sont
ncessaires ensuite pour coder les bruits, catgorie dans
laquelle on regroupe tous les vnements acoustiques non
assimilables des mots (ou entres lexicales) de la langue.</p>
<h4><a name="r251"></a>2.5.1. Comment transcrire?</h4>
<ul>
<li>Choisissez une rsolution d'environ 10 secondes ou moins pour
l'affichage du signal.</li>
<li>Allez au premier segment non transcrit en cliquant sur la ligne correspondante
dans le texte ou la position dans le signal.</li>
<li>Ecoutez ce segment avec [<tt>Signal</tt>]/[<tt>Joue le segment</tt>]
ou un des raccourcis <tt>Shift-Tab</tt> ou <tt>Alt-Tab</tt>; vous pouvez
faire une pause ou redmarrer tout moment avec [<tt>Signal</tt>]/[<tt>Joue/Pause</tt>]
ou le raccourci <tt>Tab</tt>.</li>
<li>Si ncessaire, ajustez la frontire entre le segment
et son voisin en cliquant sur cette frontire avec la touche <tt>Control
</tt>enfonce (ou avec le bouton du milieu) puis en dplaant
la souris.</li>
<li>Tapez la transcription au clavier ; elle apparat simultanment
dans l'diteur de texte et dans la segmentation sous le signal.</li>
<li>Certains vnements (bruits divers, respirations...)peuvent
tre indiqus avec des balises spciales par [<tt>Edition</tt>]/[<tt>Insrer
une balise</tt>]/[...] ou <tt>Control-d</tt>.</li>
<li>Les changements durables de condition acoustique (bruits de fond persistants)sont
indiquer avec [<tt>Segmentation</tt>]/[<tt>Insrer un bruit
de fond</tt>].</li>
</ul>
<h4><a name="r252"></a>2.5.2. Conventions de transcription</h4>
<p>La transcription graphmique doit permettre de prdire
au mieux la prononciation du locuteur. Si une mme squence
graphmique permet de gnrer diffrentes prononciations
(typiquement les dates qu'on peut noncer en utilisant <tt>mille</tt>
et <tt>cent</tt>), on adoptera des conventions capables de lever l'ambigut.
Les conventions concernent aussi les lments de la langue
pour lesquels la transcription n'est pas unique (typiquement les sigles
et les pellations, ou encore les nombres qu'on peut crire
sous forme de squence de chiffres ou comme squence de mots).
Dans tous les cas, les conventions adoptes visent standardiser
la forme graphmique attendue pour minimiser l'ambigut,
ventuellement en utilisant des balises de prononciation. Les conventions
n'tant pas exhaustives le transcripteur peut adopter par dfaut
une criture telle qu'on peut la trouver dans des textes de journaux.</p>
<p>Les conventions de transcription sont dtailles dans
la 3me partie.</p>
<h4><a name="r253"></a>2.5.3. Transcription ou prononciation ambigu</h4>
<p>La balise de prononciation permet de rajouter par dessus une graphie
prononciation multiple (typiquement les nombres, les sigles/acronymes,
noms propres) une <b>description levant l'ambigut de la prononciation</b>.</p>
<p>Il est difficile d'noncer une rgle stricte ici. <b>La
balise de prononciation permet de spcifier si un mot a t
prononc de manire peu standard</b>, l'interprtation
du <i>standard</i> dpendant videmment du transcripteur.
On peut utiliser la balise de prononciation aussi pour n'importe quel autre
commentaire relatif la prononciation d'un mot (par exemple le
marquage du -euh typique en fin de mot de l'accent parisien).</p>
<h3><a name="r26"></a>2.6. Bruits et conditions acoustiques</h3>
<p>Parmi les bruits on peut trouver de la parole ne correspondant pas
des mots proprement dits de la langue (mots tronqus, errons,
... dont le cas est trait dans les conventions de transcription),
des bruits mis par le locuteur (par son appareil phonatoire, mais
qui ne sont pas de la parole, et donc dans la plupart des cas non-superposs
la parole : bruits de bouche, de gorge, toux, respirations) ou
bien des bruits produits par des sources diffrentes de l'appareil
phonatoire du locuteur. Ces derniers bruits sont plus gnants parce
qu'ils se superposent en gnral la parole, dgradant
ainsi la qualit du signal enregistr. Les sources de bruit
peuvent tre, sur le lieu d'enregistrement, le locuteur lui-mme
ou son environnement : bruits d'couteur ou froissements de papiers
en gnral produits par le locuteur pendant qu'il parle,
conversations annexes, radio, tl, claquements de porte,
horloge, bruits de voiture, ... Le systme d'enregistrement radio-tldiffus
peut galement gnrer des bruits : bruits de micro,
craquements de ligne tlphonique, bips, effet Larsen, raccrochement
tlphone, ... Enfin certains bruits peuvent provenir du
systme de diffusion (parasites) ou d'enregistrement (souffle lectrique).
</p>
<h4><a name="r261"></a>2.6.1. Comment noter les bruits ?</h4>
<p>Pour les bruits instantans ou de courte dure, le transcripteur
cre une balise de bruit par [<tt>Edition</tt>]/[<tt>Insrer
une balise</tt>]/[<tt>Bruit instantan</tt>] ou <tt>Control-d,</tt>
et indique :</p>
<ul>
<li>la <b>catgorie </b>de la balise - un bruit, une balise de prononciation,
d'annotation lexicale, de changement de langue, ou un commentaire.</li>
<li>la <b>description </b>du bruit ou de l'vnement par
une chane de caractres ; des valeurs prdfinies
sont proposes dans un menu.</li>
<li>l'<b>tendue </b>de la balise - balise instantane, de
dbut ou de fin, ou encore applique au mot prcdent
ou suivant.</li>
</ul>
<p>Par dfaut, les balises de bruit sont affiches entre
<b>crochets</b>. Si le <b>bruit s'tend sur plusieurs mots </b>on
peut slectionner les mots et insrer une balise ; les marqueurs
de dbut et de fin seront automatiquement insrs
autour. </p>
<ul>
<li>Si le bruit advient entre deux mots le code est affich comme
un mot, c'est--dire spar des mots voisins par des
blancs : <i>parole1</i><b> [b]</b> <i>parole2</i></li>
<li>Si le bruit se superpose au mot prcdent ou suivant,
l'affichage le code correspondant est <u>accol au mot
avec le caractre +</u> (mais le transcripteur n'a pas
taper ce caractre)<br>
Affichage : <i>parole</i><b>+[b]</b></li>
<li>Si le bruit se superpose plusieurs mots, des marqueurs de
dbut et de fin seront utiliss.<br>
Affichage : <i>parole1</i> <b>[b-]</b> <i>parole2</i> <b>[-b]</b> <i>parole3<br>
</i>le bruit de type <b>[b]</b> commence avant <i>parole2</i> et se termine
avant <i>parole3</i>.</li>
</ul>
<p>Pour les bruits de longue dure, une autre procdure est
dtaille plus loin (paragraphe 2.6.4).</p>
<h4><a name="r262"></a>2.6.2. Bruits de l'appareil phonatoire (non-parole)</h4>
<p>Ici nous considrons des bruits produits par l'appareil phonatoire
du locuteur enregistr : en gnral ces bruits ne
se superposent pas la parole, sauf quand la personne parle en
chuchotant ou en rigolant : <i>je</i><b>+[rire]</b> <i>voudrais</i><b>+[rire]
</b>(on peut utiliser aussi des marqueurs de dbut et de fin : <b>[rire-]</b>
<i>je voudrais</i> <b>[-rire]</b>).</p>
<p>Pour ne pas trop compliquer la tche du transcripteur (
identifier la nature exacte du bruit) <b>les codes de bruit marqus
en gras sont utiliser par dfaut</b> pour un type de bruit
donn. Si le transcripteur a envie de marquer plus particulirement
un bruit donn, il peut choisir un des codes proposs en
retrait de la marge ; cependant, ces diffrences ne sont actuellement
pas exploites.</p>
<p><b>Suggestion :</b> le transcripteur peut accompagner les codes de bruit
de balises temporelles de synchronisation (afin de poser un repre
pour la segmentation automatique). </p>
<h5>Respiration</h5>
<ul>
<li><b>[r] : respiration</b></li>
</ul>
<ol>
<li>acte physiologique :
<ul>
<li>[i] : inspiration</li>
<li>[e] : expiration</li>
<li>[n] : reniflement</li>
</ul></li>
<li>acte volontaire :
<ul>
<li>[pf] : souffle (on entend par souffle un acte de respiration volontairement
bruyant pour marquer son dsaccord ou sa mauvaise humeur, pour retenir
un rire, ...) </li>
</ul></li>
</ol>
<h5>Autres bruits de bouche et de gorge</h5>
<ul>
<li><b>[bb] : bruit de bouche</b> (ce code regroupe les bruits de lvres,
de langue ou autre combinaison, ...)
<ul>
<li>[tx] : toux, rclement de gorge, ternuement</li>
<li>[bg] : bruit de gorge (par exemple coup de glotte, bruit de larynx
)</li>
<li>[rire] : rires du locuteur </li>
<li>[sif] : sifflement du locuteur</li>
<li>[ch] : le locuteur se parle en voix chuchote pour faire un
commentaire<br>
[ch-]<tt> voix chuchote </tt>[-ch]</li>
</ul></li>
</ul>
<h4><a name="r263"></a>2.6.3. Bruits extrieurs l'acte
de parole</h4>
<p>Nous regroupons dans cette section tous les bruits produits en dehors
de l'appareil phonatoire du locuteur. La plupart de ces bruits peuvent
se produire n'importe quel instant de l'enregistrement, et <b>peuvent
donc se superposer au signal de parole</b>, dgradant ainsi sa qualit.
</p>
<p><b>Tout bruit de nature indtermine ou non-rpertori
dans ce document peut tre not comme suit :</b></p>
<ul>
<li><b>[b]</b> : bruit indtermin</li>
</ul>
<p>Bruits dus l'environnement et au matriel d'enregistrement</p>
<ul>
<li><b>[conv]</b> : conversations dans le fond : il peut s'agir de personnes
prsentes, de public, de voitures, ...</li>
<li><b>[pap]</b> : froissement de papiers. </li>
<li><b>[mic]</b> : bruits micros.</li>
</ul>
<h4><a name="r264"></a>2.6.4. Changement de conditions acoustiques</h4>
<p>Lorsqu'un bruit s'tend sur une longue dure (bruit de
fond persistant), un systme de marquage spcifique doit
tre utilis. La balise de bruit de fond est une balise instantane
dcrivant un changement durable ans les conditions acoustiques.
L'information apporte par cette balise reste valable l'intrieur
d'un mme enregistrement jusqu' l'apparition d'une nouvelle
balise de bruit de fond, ou bien jusqu' la fin de l'enregistrement.</p>
<p>Le transcripteur positionne le curseur temporel l'instant du
changement de conditions acoustiques, choisit [<tt>Segmentation</tt>]/[<tt>Insrer
un bruit de fond</tt>] et indique :</p>
<ul>
<li><b>la nature</b> : musique, parole ou conversations, bruit lectrique,
autre...</li>
</ul>
<p>Une icne de note de musique apparat dans le texte
la position courante.</p>
<p>Si le changement de conditions acoustiques est associ aux conditions
d'enregistrement et li au tour de parole (par exemple, une intervention
tlphonique de trs mauvaise qualit), il
sera plus pratique d'utiliser le champ <tt>Fidelit=low</tt> dans
les paramtres du tour de parole [<tt>Segmentation</tt>]/[<tt>Paramtres
du tour...</tt>] , plutt que la balise de bruit de fond.</p>
<h3><a name="r27"></a>2.7. Commentaires</h3>
<p>Cette balise permet au transcripteur de commenter l'enregistrement (la
parole ou les conditions acoustiques ) transcrire. Le transcripteur
peut galement faire ici des remarques sur ce qui lui parat
utile pour faciliter la transcription.</p>
<p>
</p><hr width="100%"><p></p>
<h2><a name="r3"></a>3. Conventions de transcription</h2>
<p>Concernant la transcription l'ide de base consiste
focaliser l'attention sur ce qui apparat en <b>premier plan</b>.
Si de multiples sources sonores sont prsentes il convient de focaliser
la transcription sur la source la plus mergente. Par exemple on
entend en arrire-plan une personnalit parler une langue
trangre, un traducteur donnant la version franaise
en premier plan. Il suffit de transcrire le traducteur en signalant de
la parole en bruit de fond. On entend de la musique en premier plan avec
des commentaires en arrire-plan. On peut annoter un tel segment
comme <i>musique</i> avec comme bruit de fond de la parole (non transcrite).
Si deux locuteurs se 'disputent' le premier plan, on transcrit les deux
grce au mcanisme de <i>parole superpose</i>. Cependant
de manire gnrale on fait l'hypothse qu'il
n'y a qu'une source sonore unique au premier plan.</p>
<p>De manire gnrale, dans tous les segments de
parole qui ont t annots <i>transcribed</i> (sections
<i>report </i>ou <i>filler</i>), <b>tout ce qui est entendu doit tre
transcrit</b> : la transcription doit fournir la squence orthographique
exacte correspondant ce que le locuteur a prononc,
laquelle il faut rajouter dans la mesure du possible tous les vnements
extra-lexicaux prsents dans le signal acoustique (les rptitions,
hsitations, troncatures, bruits). </p>
<h3><a name="r31"></a>3.1. Conventions d'criture</h3>
<p>Le produit de la transcription est essentiellement une <b>squence
de mots spars par des espaces</b>, entre lesquels s'intercalent
des <b>balises </b>identifiant les bruits, les conditions acoustiques et
diverses informations permettant de lever l'ambigut de prononciation.
Autant que possible, il convient de r<b>especter l'orthographe standard
des mots</b>. La <b>ponctuation</b> sert marquer les frontires
syntaxiques et prosodiques claires.</p>
<p>Dans la suite les icnes reprsentent :</p>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]">= <i>le locuteur dit</i>
</p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> = <tt>le transcripteur crit</tt>
</p></li>
</ul>
<h4><a name="r311"></a>3.1.1. Majuscules/minuscules</h4>
<p>Tout est transcrit en <b>minuscules</b> (pas de majuscule systmatique
en dbut de phrase). L'emploi des <b>majuscules</b> est rserv
la transcription des <b>pellations</b> et des <b>sigles</b>,
au dbut des <b>noms propres</b> et dans des <b>formules de politesse</b>.
</p>
<p>Pour les noms propres d'organisation <b>assimilables des marques</b>
(tels que les journaux, les banques...) et utilisant des noms communs,
les noms communs en question sont crits avec des initiales majuscules.</p>
<ul style="list-style: none;">
<li><pre>as-tu lu Le Monde, L'Humanit et Le Dimanche ...
les journalistes du Monde, de L'Humanit et du Dimanche ...
au Crdit Lyonnais</pre></li>
</ul>
<p>Dans le doute, on peut suivre la pratique des journeaux qui peuvent
ne mettre en majuscules que le premier mot d'un sigle :</p>
<ul style="list-style: none;">
<li><pre>le Front national est au bord de l'implosion</pre></li>
</ul>
<p>Pour les noms de lieux on adopte la convention d'crire en minuscule
le nom commun. S'il est suivi d'un nom propre, celui-ci a videmment
son initiale en majuscule.</p>
<ul style="list-style: none;">
<li><pre>le lyce Anatole France
l'opra Garnier</pre></li>
</ul>
<p>Des mots communs ayant fonction de nom propre (par exemple : <b>titres
</b>d'missions, de films, de livre, d'institutions ) s'crivent
<b>entre guillemets</b>. l'intrieur des guillemets les
noms communs sont crits en minuscules.</p>
<p>Par exemple :</p>
<ul style="list-style: none;">
<li><pre>"<u>le tlphone sonne</u>" de ce soir sera consacr "<u>la chane de l'espoir</u>"
"<u>le monde d'est en ouest et du nord au sud</u>" sur France Inter
"<u>regards sur le monde</u>" , Dominique Bromberger bonjour !
bienvenue "<u>radio com , c'est vous</u>"
aux Etats-Unis , le "<u>Monica gate</u>" continue
euh , je prfre "<u>Tomb raider</u>"
le chanteur de "<u>divine comdie</u>"
des associations comme "<u>mdecins du monde</u>"
le prix Louis-Delluc pour Cdric Kahn et son film "<u>l'ennui</u>"
sortie aujourd'hui de "<u> la place du coeur</u>" de Robert Gudiguian
un bel exemple de Le Clzio dans "<u>la fivre</u>"
"<u>neuf mois marathon</u>" , Marie-Ccile Picquet , aux ditions "<u>hors commerce</u>"
une grande opration "<u>mains propres</u>" a t lance
le "<u>conseil conomique et social</u>"
ils ont gagn la "<u>terre promise</u>"</pre></li>
</ul>
<p>Pour les sigles tendus (c'est--dire prononcs
en toutes lettres) la suite de mots composant le sigle est entoure
de guillemets. Les noms communs y sont crits en minuscules.</p>
<ul style="list-style: none;">
<li><pre>le "<u>fond montaire international</u>" a fonctionn
le "<u>commissariat l'nergie atomique</u>"
l'"<u>agence France presse</u>"</pre></li>
</ul>
<p>Notes : cette utilisation des guillemets demande tre prcise.
Dans l'attente d'un vritable guide d'annotation des entits
spcifiques, elle est facultative.</p>
<p>Enfin, on met une majuscule <i>monsieur</i> (ainsi qu'
<i>madame</i>, <i>mademoiselle</i> ...) dans les formules de politesse
comme indiqu dans l'exemple :</p>
<ul style="list-style: none;">
<li><pre>est-il vrai <u>Monsieur</u> le prfet que, ...</pre></li>
</ul>
<p>mais</p>
<ul style="list-style: none;">
<li><pre>le <u>monsieur</u> qui ...</pre></li>
</ul>
<h4><a name="r312"></a>3.1.2. Ponctuations</h4>
<p>Il est recommand de mettre des marques de ponctuation l
o il y a des pauses dans le signal qui correspondent des
frontires syntaxiques, ou bien dans le cas o l'absence
de ponctuation engendre une ambigut dans le texte. </p>
<p><b>Attention :</b> il faut prcder les signes de ponctuations
d'un blanc.</p>
<ul style="list-style: none;">
<li><p><tt>les fleurs sont fanes , le pain est devenu sec </tt>. </p></li>
</ul>
<p>Les marqueurs de ponctuations sont indicateurs du mode de l'nonc
:<br>
conclusif ''.'', interrogatif ``?'', exclamatif ``!'', hsitation
``...'', etc.<br>
Ces informations sont fortement lies la prosodie et
la comprhension. Il est recommand d'accompagner les marques
de ponctuation forte (. ? !) d'une marque temporelle dans le signal (balise
de synchronisation , permettant de segmenter). </p>
<h4><a name="r313"></a>3.1.3. Apostrophe</h4>
<p>Il n'y a pas de sparateur entre l'apostrophe et le mot suivant.</p>
<ul style="list-style: none;">
<li><pre>l<u>'h</u>oraire
l<u>'a</u>rrive
jusq<u>u'</u></pre></li>
</ul>
<h4><a name="r314"></a>3.1.4. Trait d'union</h4>
<p>Les mots lis par un trait d'union sont crits normalement
sans sparation par un blanc.</p>
<ul style="list-style: none;">
<li><pre>aprs-midi
voulez-vous
anglo-saxons</pre></li>
</ul>
<p><b>Attention :</b> on ne relie pas par trait d'union les suites de noms
propres. On peut marquer graphiquement le lien par un slash entour
de blancs.</p>
<ul style="list-style: none;">
<li><p><tt>dans le Nord </tt>/<tt> Pas-de-Calais<br>
le trajet Paris </tt>/<tt> Toulouse</tt> </p></li>
</ul>
<h4><a name="r315"></a>3.1.5. Sigles</h4>
<p><b>Par dfaut :</b> les sigles sont nots par des majuscules
non spars par des blancs. </p>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>s n c f </i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>SNCF </tt></p></li>
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>otan </i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>OTAN </tt></p></li>
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>c d rom, ina p g </i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>CDROM, INA PG </tt></p></li>
</ul>
<p><b>Uniquement dans les cas d'ambigut</b>, la distinction entre un sigle prononc comme un mot et un sigle
prononc comme une suite de lettres se fera par l'ajout devant le sigle d'un underscore "_"
s'il est lu ou d'un point d'exclamation "!" s'il est pel, par exemple:
<ul style="list-style: none;">
<li<<p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>l' onu ou l'o n u, c'est selon</i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>l'_ONU</tt><b><font size="-1"></font>
</b><tt>ou l'!ONU</tt><b><font size="-1">
</font></b><tt>, c'est selon</tt></p></li>
</ul>
<p>On peut observer des expressions complexes composes de sigles et
de mots ou de fragments de mots (acronymes,...), de chiffres voire de
ponctuation, par exemple :</p>
<ul style="list-style: none;">
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>JCSat</tt><font size="-1"><b>+[pron=J C sat]</b><tt> , </tt></font><tt>RMIste , Smicard , Pacser , l'autoroute A10 , l'association AC! </tt></p></li>
</ul>
<p>La distinction entre sigle et lexie standard est parfois floue
(ainsi, LASER qui tait l'origine un acronyme est devenu Laser puis
laser). Pour l'utilisation des majuscules, on considrera qu' partir
de 5 lettres un acronyme <B>lu</B> est lexicalis et donc crit
en minuscules sauf la premire lettre :</p>
<ul style="list-style: none;">
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>Medef , Insee , Staps , Pacs , Assedic (sigle lu, 5 lettres ou plus)</tt> </p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>IFOP , SMIG , SFOR , PACS , ENA </tt> (sigle lu, 4 lettres ou moins)</p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>FM , ETA , CFDT , EHESS , FNSEA , DGCCRF </tt> (sigle pel)</p></li>
</ul>
<p>Dans les cas <B>mixtes</B> comme RMiste, CDROM..., on prendra la graphie majoritaire
des journaux: RMiste, CDROM....</p>
<h4><a name="r316"></a>3.1.6. Abrviations</h4>
<p>Il existe dans la langue des <b>abrviations</b> standards comme
etc pour <i>et caetera</i>. Les transcripteurs utilisent <tt>etc</tt>sans
point accol. </p>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"><i>et caetera</i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> etc</p></li>
</ul>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"><i>okay</i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> OK</p></li>
</ul>
<h4><a name="r317"></a>3.1.7. Nombres</h4>
<p>Les nombres sont transcrits sous forme de suite de chiffres si la prononciation
correspond la syntaxe standard de prononciation des nombres (crire
la suite de mots est toujours autoris, mais cela demande plus de
travail et peut gnrer plus d'erreur de la part du transcripteur).</p>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>soixante mille</i>
</p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>60000</tt> ou bien <tt>60
mille</tt></p></li>
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>soixante millions
</i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>60000000 </tt>ou bien
<tt>60 millions </tt></p></li>
</ul>
<p><b>Attention:</b> il ne faut pas introduire d'espace entre les chiffres!
</p>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>vingt virgule cinquante-sept
</i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>20,57 </tt>ou bien <tt>20 virgule 57 </tt></p></li>
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>un franc cinquante</i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>1 franc 50</tt></p></li>
</ul>
<p><b>Attention:</b> il ne faut pas crire: 1,50 francs ! </p>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>cent cinquante-huit
litres virgule neuf</i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>158 litres virgule 9</tt></p></li>
</ul>
<p>Les fractions de l'unit (demi, tiers...) seront crits en toutes lettres:
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>deux tiers</i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>deux tiers</tt> ou <tt>2 tiers</tt></p></li>
</ul>
<p><b>Attention:</b> il ne faut pas crire: 2/3 ! </p>
<p>Les nombres ordinaux seront crits en toutes lettres:
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>le troisime</i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>le troisime</tt></p></li>
</ul>
<p><b>Attention:</b> il ne faut pas crire: le 3me ! </p>
<p>Le signe moins pouvant tre confondu avec le tiret, il sera crit
en toutes lettres, ainsi que plus, fois, gale, etc. La seule
exception est "pour cent", qui sera crit % :</p>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>moins dix degrs</i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>moins 10 degrs</tt></p></li>
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>trois pour cent</i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>3 %</tt></p></li>
</ul>
<h4><a name="r318"></a>3.1.8. Dates</h4>
<p>Pour les dates dont la prononciation peut tre ambigu (<i>dix-neuf
cent</i> ou <i>mille neuf cent</i>), on utilisera une balise de prononciation
dans le cas non-standard, s'appliquant au mot prcdent (ou suivant). Le choix propos par dfaut est "19 cent...", il faudra veiller le modifier manuellement en fonction du sicle en question, exemple pour 1660 on utilisera "16 cent..."</p>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>mille neuf cent
quatre-vingts </i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>1980</tt></p></li>
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>dix-neuf cent quatre-vingts</i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>1980</tt><b><font size="-1">+[pron=19
cent...]</font></b></p></li>
</ul>
<h4><a name="r319"></a>3.1.9. Chiffres romains</h4>
<p>Ils peuvent tre utiliss dans les noms de roi ou de pape
(qui servent souvent dsigner des lieux publics ). La transcription
se fait avec les chiffres romains, en ajoutant une balise de prononciation s'appliquant au mot prcdent (ou suivant).</p>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>l'htel Charles
cinq </i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>l'htel Charles
V</tt><b><font size="-1">+[pron=(chiffres romains:) 5]</font></b></p></li>
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>le stade Louis deux
</i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>le stade Louis II</tt><b><font size="-1">+[pron=(chiffres romains:) 2]</font></b></p></li>
</ul>
<h4><a name="r3110"></a>3.1.10. Adresses internet</h4>
<p>Pour les adresses internet (URL ou e-mail), la transcription se fait
en notant l'adresse telle qu'elle s'crit (habituellement tout en
minuscules), et en ajoutant une balise de prononciation s'appliquant au mot prcdent (ou suivant).</p>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>telsonne at radio
tiret france point f r</i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>telsonne@radio-france.fr</tt><b><font size="-1">+[pron=(URL:) telsonne at radio tiret France point FR]</font></b></p></li>
</ul>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"><i>w w w point radio
tiret france point f r</i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"><tt>www.radio-france.fr</tt><b><font size="-1">+[pron=(URL:) WWW point radio tiret France point FR]</font></b></p></li>
</ul>
<p>Dans le cas de prsence d'inspirations, d'hsitations... au milieu de l'URL, celles-ci seront annotes dans la balise prononciation, par exemple il faut crire : </p>
<ul style="list-style: none;">
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"><tt>www.tf1.fr<b>+[pron=(URL:) WWW [i] point TF() 1 point FR]</b></tt></p></li>
</ul>
<b>Attention:</b> il ne faut pas crire:
<ul style="list-style: none;">
<li><p><tt>www [i].tf() 1.fr<b>+[pron=(URL:) WWW point TF1 point FR]</b></tt></p></li>
</ul>
<p>Dans le cas cas particulier d'une URL scinde, par exemple prononce par plusieurs locuteurs, transcrire comme dans cet exemple :
<br><br>
<img src="../img/URL_split.png" alt="[URL scinde]">
<h3><a name="r32"></a>3.2. Mots hors-lexique</h3>
<h4><a name="r321"></a>3.2.1. Mots d'origine trangre, changement
de langue</h4>
<p>Une balise de changement de langue permet d'identifier un mot ou une
suite de mots qui ne font pas partie du parler franais.</p>
<p>Les mots d'origine trangre (et absorbs dans
la langue avec une prononciation donne) ne sont pas marqus
(par exemple <tt>week-end</tt>, <tt>playstation,</tt> <tt>business </tt>prononcs
l'anglaise). On considre ces prononciations comme ``standard''.</p>
<p>En revanche des prononciations peu communes devront tre signales
(par exemple les correspondants l'tranger dmarrant
leur intervention par <tt>buon giorno di Roma</tt>, <tt>good morning from
London</tt>... ).</p>
<ul style="list-style: none;">
<li><p><tt>changeant des potins </tt><b><font size="-1">[lang=anglais-]</font><i>
</i></b><tt>cashing up with gossip </tt><b><font size="-1">[-lang=anglais]</font></b></p></li>
<li><p><tt>a s'appelle l'</tt><b><font size="-1">[lang=anglais-] </font></b><tt>easy
listening </tt><b><font size="-1">[-lang=anglais]</font></b></p></li>
<li><p><tt>cela reviendra lgaliser le sabouba</tt><b><font size="-1">+[lang=arabe]</font></b></p></li>
</ul>
<p>Il est inutile d'ajouter un marqueur d'orthographe incertaine aux mots
trangers, mme si la transcription est simplement acoustique.
Un segment de longue dure en langue trangre doit
tre annot <i>non-trans.</i></p>
<h4><a name="r322"></a>3.2.2. Noms propres trangers</h4>
<p>Les noms propres <tt>Beatles</tt>, <tt>Clinton</tt>, les sigles <tt>CNN</tt>,
<tt>CBS</tt> prononcs l'anglaise correspondent au standard
; l'inverse une prononciation la franaise inhabituelle
doit tre spcifie par une balise de prononciation
:</p>
<ul style="list-style: none;">
<li><p><tt>Bill Clinton , en franais Guillaume Clinton</tt><b><font size="-1">+[pron=franais]</font></b></p></li>
</ul>
<p>Pour des noms propres comme <tt>Morgan</tt> le standard dpend
videmment du contexte (<tt>Michle Morgan</tt> ou <tt>Nelson
Morgan</tt> par exemple). Mais pour des noms propres comme <tt>Benjamin</tt>,
le contexte peut ne pas tre suffisant : <tt>Benjamin Netanyahou</tt>
peut admettre diffrentes prononciations. </p>
<h4><a name="r323"></a>3.2.3. Mots techniques, nouveaux mots, noms propres
inconnus</h4>
<p>Cette section concerne les problmes d'criture qui se
posent pour des nologismes, entits idiosyncrasiques, des
mots techniques . </p>
<p>Dans un contexte particulier des mots nouveaux peuvent apparatre.
Ces mots ne font pas partie du vocabulaire de la langue courante, et sont
souvent ignors des gens extrieurs ce domaine particulier.
Ceci est vrai pour des domaines techniques spcialiss, mais
se rencontrent frquemment aussi dans le milieu journalistique (par
exemple le terme de <tt>pu-putch</tt> a t employ
plusieurs fois dbut dcembre 98). Ces mots sont
considrer comme des entits lexicales part entire.
</p>
<p>Lorsque l'orthographe se dduit sans ambigut, il
suffit de l'crire sans balise supplmentaire :</p>
<ul style="list-style: none;">
<li><p><tt>un <u>tlvirenquethon</u> ? a ne sonne pas
trs bien</tt></p></li>
<li><p><tt>le <u>greige</u> , quelque part entre gris et beige</tt></p></li>
<li><p><tt>la <u>primature</u> du chef est publiquement mise en cause</tt></p></li>
</ul>
<p>Des noms propres inconnus (souvent d'origine trangre)
peuvent admettre plusieurs graphies en franais. Afin de pouvoir
normaliser ces graphies lors d'un traitement ultrieur, il est important
de marquer les mots qui posent problmes. </p>
<p><b>Rgle :</b> tous mots techniques, idiosyncrasiques,
noms propres, etc, dont la graphie est incertaine (non fige,
et qu'un complment d'information permettrait de corriger ou
confirmer), seront prcds par deux accents circonflexes :</p>
<ul style="list-style: none;">
<li><p><tt>^^mot_inconnu</tt></p></li>
</ul>
<p>Exemples :</p>
<ul style="list-style: none;">
<li><p><tt>^^Annam ^^Lefebvre ^^Baranov ^^Tourner ^^Rresse ^^Micoine
^^Ita ^^Arad ^^Mougins ^^Mossey ^Klipffel ^^Jaillard ^^Elina ^^Castella
^^Zwetaeva ...</tt></p></li>
</ul>
<p>De manire quivalente, une balise de commentaire lexical
peut tre utilise :</p>
<ul style="list-style: none;">
<li><p><tt>^^Gudet</tt> ou <tt>Gudet</tt><b><font size="-1">+[lex=orthographe incertaine]</font></b></p></li>
</ul>
<p>Remarque: Ceci ne s'applique pas aux mots qui ont deux orthographes
possibles (on choisira la premire venant l'esprit) :
<ul style="list-style: none;">
<li><p><tt>cl</tt> ou <tt>clef</tt> ,
<tt>cuillre</tt> ou <tt>cuiller</tt> ,
<tt>aroclub</tt> ou <tt>aro-club</tt> ,
<tt>CDROM</tt> ou <tt>cdrom</tt> , <tt>etc</tt></p></li>
</ul>
En revanche, cela s'applique aux prnoms ambigus :
<ul style="list-style: none;">
<li><p><tt>^^Michle</tt> ou <tt>^^Michelle Martin</tt> ;
<tt>^^Danile</tt> ou <tt>^^Danielle Durand</tt> ; mais</p></li>
<li><p><tt>Michle Morgan</tt> ; <tt>Danielle</tt> , avec 2 L ,</p></li>
</ul>
<h3><a name="r33"></a>3.3. Spcificits du langage parl</h3>
<p>Lorsqu'on coute attentivement le signal, on se rend compte que
des parties de mots, voire des mots entiers peuvent avoir disparus.</p>
<p>On peut tre tent de marquer graphmiquement les
rductions produites par le locuteur. <b>La consigne suivre
ici est de <u>respecter l'orthographe standard</u></b>: ne pas marquer,
dans l'criture, l'lision ou la rduction prsente
dans la parole. On peut utiliser la balise de prononciation ou la balise
de commentaire, si on veut dcrire les phnomnes
observs. </p>
<h4><a name="r331"></a>3.3.1. Onomatopes</h4>
<p>Les onomatopes font partie de la langue et sont transcrire
au mme titre que les autres mots. Les plus frquentes existent
en gnral en tant que mots graphmiques, pour toutes
les autres on devra crer des mots correspondants et maintenir cette
liste jour.</p>
<ul style="list-style: none;">
<li><pre>euh , ben, eh, hein, ah, hum, oh, h,
ouahou, huhum, hou, hop, ae ...</pre></li>
</ul>
<p>Exemples :</p>
<ul style="list-style: none;">
<li><pre>euh on voit que les ... , ah , comment dire
et en fait euh bon ben
l'indice Nikkei et non pas Mickey hein !
eh bien ,
h oh comme vous dites !
hou l l
une tude sur le le hum ()
ouahou , chic alors !
on en parle plus , hop .</pre></li>
</ul>
<h4><a name="r332"></a>3.3.2. Rptitions</h4>
<p>Les rptitions ne portent pas d'information et on tenterait
naturellement de les liminer dans un processus de transcription
d'une dicte. Elles doivent tre transcrites comme tout autre
mot.</p>
<ul style="list-style: none;">
<li><pre>le le le dput ...</pre></li>
</ul>
<h4><a name="r333"></a>3.3.3. Elisions & formes rduites</h4>
<p>La rduction peut porter sur un seul mot ou une suite de mots,
par exemple: </p>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>orches' de chambre</i>
| <i>s'i 'ous plat</i> | <i>qu'i soit </i>| <i>dans c' domaine</i>
</p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>orchestre de chambre</tt>
| <tt>s'il vous plat</tt> | <tt>qu'il soit</tt> | <tt>dans ce domaine</tt>
</p></li>
</ul>
<p><b>Remarque:</b> La rduction de <tt>qu'il</tt> en <tt>qu'i'</tt>
est transcrite <tt>qu'il</tt> et non pas <tt>qui</tt>. </p>
<p>Autres exemples: </p>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>i' y a</i> ou bien
<i>y a</i> </p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>il y a</tt> ou bien <tt>(il)
y a</tt> </p></li>
</ul>
<p>On peut crire <tt>(il) y a</tt> si le <tt>il</tt> est absent
<b>de manire vidente</b>. Mais nous tenons souligner
qu'il est inutile de faire des coutes rptes
pour dcider si le <tt>il</tt> est prsent ou non.</p>
<p>Dans le langage parl le <tt>ne</tt> de la ngation est
trs souvent omis. Dans ce cas on ne l'crit pas. </p>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>j'en sais rien</i>
</p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>j'en sais rien </tt></p></li>
</ul>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>chais pas</i> ou
bien <i>chsais pas</i> ou bien ... </p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>je sais pas</tt> ou bien
<tt>je (ne) sais pas </tt></p></li>
</ul>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>mais y a pas d'
raison qu'i' soit pas l </i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>mais il y a pas de raison
qu'il soit pas l</tt> <br>
ou bien <tt>mais (il n') y a pas de raison qu'il (ne) soit pas l</tt></p></li>
</ul>
<h4><a name="r334"></a>3.3.4. Troncatures</h4>
<p>Les mots tronqus peuvent provenir de deux origines diffrentes
: soit le locuteur s'arrte avant la fin du mot, soit le locuteur
est coup par le systme d'enregistrement. Dans ce dernier
cas le mot peut tre tronqu au dbut : le locuteur
a commenc parler avant le dbut de l'enregistrement.
La troncature est marque par des <b>parenthses</b>. Si
le mot tronqu est connu (grce au contexte) on note la partie
manquante du mot entre parenthses.</p>
<p>notation : ()</p>
<ul style="list-style: none;">
<li><p><tt>vou()</tt> : troncature finale de <tt>voudrais, voulais</tt>,...</p></li>
<li><p><tt>()embre</tt> : troncature initiale de <tt>septembre, novembre, dcembre</tt>,...</p></li>
<li><p><tt>aprs-de(main)</tt> : le mot complet peut tre dduit
du contexte</p></li>
</ul>
<h4><a name="r335"></a>3.3.5. Lapsus</h4>
<p>Il arrive que la prononciation errone soit un mot correct de
la langue. Dans ce cas, on transcrit les mots tel qu'ils ont t
prononcs.</p>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>une augmentation
consquence euh consquente </i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>une augmentation <u>consquence</u>
euh consquente</tt></p></li>
</ul>
<h4><a name="r336"></a>3.3.6. Prononciation errone</h4>
<p>Si on arrive identifier le mot mal prononc, on crit
le mot correct prcd d'une toile.</p>
<p>notation : <b>*mot-correct</b></p>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>pestacle </i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>*spectacle</tt></p></li>
</ul>
<p>La prononciation effective peut tre,<b> en plus</b>, signale par une balise
:</p>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>rnumration
</i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>*rmunration</tt><b><font size="-1">+[pron=rnumration]</font></b></p></li>
</ul>
<p>S'il s'agit de <b>parole inintelligible</b>, on utilise la notation
suivante :<br>
notation : <b>[pi]</b></p>
<p>Si la parole est inintelligible parce qu'il s'agit de <b>parole inaudible
et faible</b>, on peut noter ce type d'vnement, si on veut
la diffrencier du cas ci-dessus, par :<br>
notation : <b>[pif]</b></p>
<p>Le transcripteur est invit insrer une balise
de synchronisation prs du mot (juste aprs le mot) mal prononc
(afin de poser un repre pour la segmentation automatique dans cette
zone errone).</p>
<h4><a name="r337"></a>3.3.7. Liaisons</h4>
<p>On ne marque pas les liaisons dans la transcription orthographique.
Les liaisons errones sont releves par la balise de prononciation.
</p>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>vingt-z-animaux</i>
</p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>vingt</tt><b><font size="-1">+[pron=vingt-z]</font></b><tt>
animaux </tt></p></li>
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>trop-z ennuyeux
il voudrait-z y aller</i> </p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>trop</tt><b><font size="-1">+[pron=trop-z]</font></b><tt>
ennuyeux il voudrait y aller</tt> </p></li>
</ul>
<h4><a name="r338"></a>3.3.8. pellations</h4>
<p>Toutes les lettres sont notes en majuscules spares
par des blancs, p. ex :<br>
P A R I S<br>
L'pellation des lettres accentues peut conduire
diffrentes transcriptions, suivant l'nonc du locuteur,
par exemple :</p>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i> accent
aigu </i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt> accent aigu </tt></p></li>
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>e accent aigu </i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>E accent aigu </tt></p></li>
</ul>
<p><b>Remarque :</b> l'pellation des <u>lettres redoubles</u>
peut donner lieu diffrentes transcriptions. Par exemple
le locuteur doit peler <i>Vannes</i> :</p>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>v a n n e s </i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>V A N N E S </tt></p></li>
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>v a deux n e s </i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>V A 2 N E S </tt></p></li>
</ul>
<h4><a name="r339"></a>3.3.9. Ponctuation verbalise</h4>
<p>Si un locuteur nonce la ponctuation (comme s'il faisait une
dicte, <i>verbalized punctuation</i>) on crit le mot correspondant
en toutes lettres :</p>
<ul style="list-style: none;">
<li><p><img src="../img/tete.gif" hspace="5" height="26" width="29" alt="[Tte]"> <i>cent-cinq point
cinq</i></p></li>
<li><p><img src="../img/pencil.gif" height="22" width="35" alt="[Crayon]"> <tt>105 point 5</tt></p></li>
</ul>
<p>
</p><hr width="100%"><p></p>
<h2><a name="r4"></a>4. Vrification</h2>
<h4><a name="r41"></a>4.1. Comment vrifier la transcription ?</h4>
<ul>
<li>Ecoutez le signal tout en lisant la transcription. Stoppez et redmarrez
aussi souvent que ncessaire. Utilisez de prfrence
la commande [<tt>Signal</tt>]/[<tt>Joue le segment</tt>] ou <tt>Shift-Tab</tt>.</li>
<li>La transcription est modifier dans l'diteur de texte.
Dans une future version du logiciel, un correcteur orthographique devrait
tre disponible pour la correction des fautes d'orthographe (et plus
gnralement des fautes de frappe).</li>
<li>Les frontires des segments peuvent tre dplaces
ou supprimes</li>
<li>Les tours de paroles et les sections sont ditables en cliquant
sur le bouton correspondant.</li>
<li>La correction orthographique est disponible par [<tt>Edition</tt>]/[<tt>Correction
orthographique</tt>]</li>
</ul>
</body></html>
|